論文の概要: TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation
- arxiv url: http://arxiv.org/abs/2603.08182v1
- Date: Mon, 09 Mar 2026 10:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.755051
- Title: TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation
- Title(参考訳): TildeOpen LLM: 任意の言語表現を実現するためのカリキュラム学習を活用する
- Authors: Toms Bergmanis, Martins Kronis, Ingus Jānis Pretkalniņš, Dāvis Nicmanis, Jeļizaveta Jeļinska, Roberts Rozis, Rinalds Vīksna, Mārcis Pinnis,
- Abstract要約: 本稿では,34言語を対象としたオープンウェイト基盤モデルであるTildeOpen LLMについて述べる。
データ不均衡に対処するために、データセットを10倍にし、一様と自然言語の分布を交互に行うカリキュラムベースのトレーニングスケジュールと組み合わせる。
このモデルはテキスト生成や理解において既存のオープンウェイトモデル、特にバルト語、フィンノ・ウルグ語、スラヴ語を超越している。
- 参考スコア(独自算出の注目度): 0.24358758276023726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often underperform in many European languages due to the dominance of English and a few high-resource languages in training data. This paper presents TildeOpen LLM, a 30-billion-parameter open-weight foundational model trained for 34 European languages to promote linguistic equity and improve performance for low-resource languages. To address the data imbalance, we combine dataset upsampling with a curriculum-based training schedule that alternates between uniform and natural language distributions. The resulting model performs favorably compared to other multilingual LLMs despite being trained with significantly fewer computing resources. Evaluation across multiple multilingual benchmarks shows that TildeOpen surpasses existing open-weight models in text generation and comprehension, particularly for Baltic, Finno-Ugric, and Slavic languages. Human evaluations confirm an up to tenfold reduction in linguistic errors relative to leading baselines. The model and associated resources are fully open-weight and publicly available at huggingface.co/TildeAI/TildeOpen-30b. These outcomes demonstrate that careful data curation and balanced training strategies can substantially enhance multilingual model quality without increasing model size or training volume.
- Abstract(参考訳): 大規模な言語モデルは、訓練データにおいて英語と少数の高リソース言語が支配的であったため、多くのヨーロッパの言語では性能が劣っていることが多い。
本稿では,34言語を対象とした30ビリオンパラメタのオープンウェイト基盤モデルであるTildeOpen LLMについて述べる。
データ不均衡に対処するために、データセットのアップサンプリングと、一様と自然言語の分布を交互に交互に行うカリキュラムベースのトレーニングスケジュールを組み合わせる。
結果として得られるモデルは、コンピュータリソースが大幅に少ないにもかかわらず、他の多言語LLMと比較して好適に機能する。
複数のマルチ言語ベンチマークによる評価は、TildeOpenがテキスト生成や理解において既存のオープンウェイトモデル、特にバルト語、フィンノ・ウルグ語、スラヴ語を超越していることを示している。
人間の評価は、主要なベースラインと比較して、言語エラーの最大10倍の減少を確認できる。
モデルと関連するリソースは完全にオープンウェイトで、Huggingface.co/TildeAI/TildeOpen-30bで公開されている。
これらの結果は、注意深いデータキュレーションとバランスの取れたトレーニング戦略が、モデルサイズやトレーニングボリュームを増大させることなく、多言語モデルの品質を大幅に向上させることができることを示している。
関連論文リスト
- MiniLingua: A Small Open-Source LLM for European Languages [47.78284815754002]
MiniLinguaは、13のヨーロッパ言語でスクラッチからトレーニングされた10億のパラメータからなる、多言語でオープンソースのLLMである。
データ処理やモデルのトレーニングに使用されるモデルウェイト、トークン、ソースコードをリリースします。
論文 参考訳(メタデータ) (2025-12-15T13:12:42Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - LDP: Generalizing to Multilingual Visual Information Extraction by Language Decoupled Pretraining [2.6638517946494535]
単言語事前学習データをよりよく活用するための多言語学習パラダイム LDP (Language Decoupled Pre-training) を提案する。
提案したモデル LDM はまず言語に依存しないデータに基づいて事前訓練され,言語知識は拡散モデルによって分離され,次に下流言語で微調整される。
論文 参考訳(メタデータ) (2024-12-19T07:31:40Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Open Generative Large Language Models for Galician [1.3049334790726996]
大規模言語モデル(LLM)は自然言語処理に変化をもたらした。
しかし、彼らの主に英語中心のトレーニングは、言語間でのバイアスとパフォーマンスの相違につながっている。
この不均衡は、ガリシア語のような低い資源を持つ言語にとって、NLP技術への公平なアクセスを困難にしている。
このギャップを埋めるために、ガリシアに焦点をあてた最初の2つの生成LDMを提示する。
論文 参考訳(メタデータ) (2024-06-19T23:49:56Z) - Poro 34B and the Blessing of Multilinguality [3.270981284471548]
Poro 34Bは、フィンランド語、英語、プログラミング言語の1兆トークンのために訓練された34億のパラメータモデルである。
フィンランド語における既存モデルの能力を大幅に向上するモデルを,多言語学習アプローチにより生成できることが示される。
論文 参考訳(メタデータ) (2024-04-02T11:34:12Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。