論文の概要: ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset
- arxiv url: http://arxiv.org/abs/2602.15210v1
- Date: Mon, 16 Feb 2026 21:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.916697
- Title: ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset
- Title(参考訳): 20-Trillion-Tokenデータセットのための多言語キュレーションからの洞察
- Authors: DatologyAI, :, Aldo Gael Carranza, Kaleigh Mentzer, Ricardo Pio Monti, Alex Fang, Alvin Deng, Amro Abbas, Anshuman Suri, Brett Larsen, Cody Blakeney, Darren Teh, David Schwab, Diego Kiner, Fan Pan, Haakon Mongstad, Jack Urbanek, Jason Lee, Jason Telanoff, Josh Wills, Luke Merrick, Parth Doshi, Paul Burstein, Pratyush Maini, Spandan Das, Tony Jiang, Vineeth Dorna, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt,
- Abstract要約: 13言語にわたる多言語データキュレーションについて検討する。
制御されたバイリンガル実験では、単一の言語でのデータ品質が向上する。
我々は,20T-tokenプレトレーニングコーパスを作成した作業において,このアプローチを運用する。
- 参考スコア(独自算出の注目度): 17.0474303219065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilinguality is a core capability for modern foundation models, yet training high-quality multilingual models remains challenging due to uneven data availability across languages. A further challenge is the performance interference that can arise from joint multilingual training, commonly referred to as the "curse of multilinguality". We study multilingual data curation across thirteen languages and find that many reported regressions are not inherent to multilingual scaling but instead stem from correctable deficiencies in data quality and composition rather than fundamental capacity limits. In controlled bilingual experiments, improving data quality for any single language benefits others: curating English improves non-English performance in 12 of 13 languages, while curating non-English yields reciprocal improvements in English. Bespoke per-language curation produces substantially larger within-language improvements. Extending these findings to large-scale general-purpose training mixtures, we show that curated multilingual allocations comprising under 8% of total tokens remain remarkably effective. We operationalize this approach within an effort that produced a 20T-token pretraining corpus derived entirely from public sources. Models with 3B and 8B parameters trained on a 1T-token random subset achieve competitive multilingual accuracy with 4-10x fewer training FLOPs than strong public baselines, establishing a new Pareto frontier in multilingual performance versus compute. Moreover, these benefits extend to frontier model scale: the 20T-token corpus served as part of the pretraining dataset for Trinity Large (400B/A13B), which exhibits strong multilingual performance relative to its training FLOPs. These results show that targeted, per-language data curation mitigates multilingual interference and enables compute-efficient multilingual scaling.
- Abstract(参考訳): 言語間の不均一なデータ可用性のため、高品質な多言語モデルのトレーニングは依然として難しい。
さらなる課題は、共同多言語訓練(通称「多言語性の計算」)から生じるパフォーマンス干渉である。
13言語にまたがる多言語データキュレーションについて検討し、多くのレグレッションがマルチ言語スケーリングに固有のものではなく、基本容量制限ではなく、データ品質と構成の修正可能な欠陥に起因することを発見した。
英語のキュレーションは13言語中12言語で非英語のパフォーマンスを改善し、非英語のキュレーションは英語で相互に改善する。
言語ごとのベスポークは言語内での大幅な改善をもたらす。
これらの知見を大規模汎用訓練混合物に拡張することにより,全トークンの8%未満の多言語アロケーションが極めて有効であることを示す。
我々は,このアプローチを,公開資料から派生した20T-token事前学習コーパスを作成した作業で運用する。
1T-tokenランダムサブセットでトレーニングされた3Bおよび8Bパラメータを持つモデルは、強力な公開ベースラインよりも4~10倍少ないトレーニングFLOPで競合する多言語精度を実現し、多言語パフォーマンスと計算における新しいパレートフロンティアを確立する。
さらに、これらの利点はフロンティアモデルスケールにまで拡張され、20T-Tokenコーパスは、訓練用FLOPと比較して強い多言語パフォーマンスを示すTrinity Large(400B/A13B)の事前トレーニングデータセットの一部として機能した。
これらの結果から,対象言語毎のデータキュレーションは多言語干渉を軽減し,計算効率のよい多言語スケーリングを実現することが示唆された。
関連論文リスト
- Revisiting Multilingual Data Mixtures in Language Model Pretraining [20.282622416939997]
大規模言語モデルの事前学習における多言語データ混合の影響について検討する。
英語と多言語のデータの組み合わせは、いずれかのグループの言語内性能を劣化させるとは限らない。
トレーニング言語の数が増加するにつれて、重要な「多言語性の帰結」は観測されない。
論文 参考訳(メタデータ) (2025-10-29T20:46:03Z) - Leveraging Multilingual Training for Authorship Representation: Enhancing Generalization across Languages and Domains [41.44674318564781]
オーサシップ表現(AR)学習は,オーサシップ帰属タスクにおいて高いパフォーマンスを示している。
本稿では,2つの重要なイノベーションを取り入れた多言語AR学習手法を提案する。
私たちのモデルは36の言語と13のドメインにわたる450万以上の著者でトレーニングされています。
論文 参考訳(メタデータ) (2025-09-20T04:43:24Z) - Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。