論文の概要: TF3-RO-50M: Training Compact Romanian Language Models from Scratch on Synthetic Moral Microfiction
- arxiv url: http://arxiv.org/abs/2601.10410v1
- Date: Thu, 15 Jan 2026 14:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.156617
- Title: TF3-RO-50M: Training Compact Romanian Language Models from Scratch on Synthetic Moral Microfiction
- Title(参考訳): TF3-RO-50M:Scratchによるルーマニア語モデルの学習
- Authors: Mihai Dan Nadas, Laura Diosan, Andreea Tomescu, Andrei Piscoran,
- Abstract要約: ルーマニア語中心の言語モデリングパイプラインであるTF3-ROについて紹介する。
TF3-ROは、制御されたプロンプトフレームワークを介して、300万のルーマニア原産の合成ファブルを生成する。
- 参考スコア(独自算出の注目度): 0.4199844472131922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in synthetic data generation have shown that compact language models can be trained effectively when the underlying corpus is structurally controlled and linguistically coherent. However, for morphologically rich and computationally under-resourced languages such as Romanian, there is still no openly documented, end-to-end pipeline that unifies tokenizer design, preprocessing, pretraining, compression, evaluation, and large-scale synthetic data generation in a reproducible framework. Building on TF1, a three-million-story English fable dataset, and TF2, which extends TF1 through high-quality Romanian translations, we introduce TF3-RO, a Romanian-centric language modeling pipeline spanning tokenizer training, from-scratch model development, and Romanian-native dataset generation. TF3-RO constructs Romanian-specific BPE and Unigram tokenizers from a linguistically informed corpus to mitigate token inflation induced by Romanian morphology. Using long-sequence packed training, we pretrain a 51.65M-parameter LLaMA-style Transformer entirely from scratch. The model is subsequently optimized through quantization, structured pruning, and logit-based knowledge distillation, yielding a compact 26.45M-parameter student model with tied embeddings and strong deployment characteristics. Using this distilled model, TF3-RO generates three million Romanian-native synthetic fables via a controlled combinatorial prompting framework. Across all stages, the pipeline integrates a comprehensive evaluation suite combining intrinsic metrics, Romanian agreement probes, entity coherence, rule-based grammar checking, and LLM-based assessment. TF3-RO provides a reproducible and linguistically grounded framework for training compact Romanian language models and producing large-scale synthetic narrative corpora.
- Abstract(参考訳): 合成データ生成の最近の進歩は、基礎となるコーパスが構造的に制御され、言語的に一貫性がある場合に、コンパクトな言語モデルを効果的に訓練できることを示している。
しかし、ルーマニア語のような形態的に豊かで計算力に乏しい言語では、プロトタイザの設計、前処理、事前訓練、圧縮、評価、大規模な合成データ生成を再現可能なフレームワークで統一する、オープンに文書化されたエンドツーエンドのパイプラインはいまだ存在しない。
高品質なルーマニア語翻訳を通じてTF1を拡張するTF1とTF2の上に構築されているTF3-ROは、トークン処理者のトレーニング、スクラッチモデル開発、ルーマニアネイティブなデータセット生成にまたがるルーマニア語中心の言語モデリングパイプラインである。
TF3-ROは、ルーマニアのモルフォロジーによって誘導されるトークンのインフレーションを軽減するために、言語的に情報を得たコーパスからルーマニア固有のBPEおよびユニグラムのトークン化剤を構築する。
長周期充填訓練を用いて、51.65MのLLaMA型トランスフォーマーをスクラッチから完全に事前訓練する。
その後、量子化、構造化プルーニング、ロジットに基づく知識蒸留によって最適化され、密着した埋め込みと強力な展開特性を持つ26.45Mの学生モデルが得られる。
この蒸留モデルを用いて、TF3-ROは制御されたコンビナトリアル・プロセッシング・フレームワークを介して、ルーマニア原産の合成ファブルを300万個生成する。
全段階にわたって、パイプラインは固有のメトリクス、ルーマニアの合意調査、エンティティコヒーレンス、ルールベースの文法チェック、LLMベースのアセスメントを組み合わせた総合的な評価スイートを統合している。
TF3-ROは、コンパクトなルーマニア語モデルを訓練し、大規模な合成物語コーパスを作成するための再現可能で言語的に根ざしたフレームワークを提供する。
関連論文リスト
- Small Open Models Achieve Near Parity with Large Models in Low Resource Literary Translation at a Fraction of the Cost [0.5599792629509229]
TINYFABULIST Translation FRAMEWORK (TF2) は、英語・ルーマニア語文学翻訳におけるデータセット作成、微調整、評価のための統合されたフレームワークである。
DS-TF1-EN-3M (TF1) 上に構築され,ルーマニア語などの低リソース言語におけるリッチで高品質な文芸データセットの必要性に対処する。
論文 参考訳(メタデータ) (2025-09-09T15:07:14Z) - LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - Text to Band Gap: Pre-trained Language Models as Encoders for Semiconductor Band Gap Prediction [9.325818199739759]
本稿では,半導体材料のバンドギャップを予測するために,RoBERTa,T5,Llama-3,MatSciBERTなどのトランスフォーマーベース言語モデルについて検討する。
入力は、化学組成、結晶系、空間群、その他の構造的および電子的性質などの重要な材料特性を符号化する。
論文 参考訳(メタデータ) (2025-01-07T00:56:26Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。