論文の概要: ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality
- arxiv url: http://arxiv.org/abs/2510.22037v1
- Date: Fri, 24 Oct 2025 21:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.487047
- Title: ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality
- Title(参考訳): ATLAS:多言語事前学習・微調整・復号化のための適応的転送スケーリング法
- Authors: Shayne Longpre, Sneha Kudugunta, Niklas Muennighoff, I-Hung Hsu, Isaac Caswell, Alex Pentland, Sercan Arik, Chen-Yu Lee, Sayna Ebrahimi,
- Abstract要約: 我々は,これまでで最大規模の多言語スケーリング法を施行し,合計774の多言語学習実験を行った。
単言語および多言語事前学習のための適応移動スケーリング法(ATLAS)を導入する。
分析では、多言語学習のダイナミクス、言語間の伝達特性、多言語性の呪いについて光を当てた。
- 参考スコア(独自算出の注目度): 45.16490310398125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws research has focused overwhelmingly on English -- yet the most prominent AI models explicitly serve billions of international users. In this work, we undertake the largest multilingual scaling laws study to date, totaling 774 multilingual training experiments, spanning 10M-8B model parameters, 400+ training languages and 48 evaluation languages. We introduce the Adaptive Transfer Scaling Law (ATLAS) for both monolingual and multilingual pretraining, which outperforms existing scaling laws' out-of-sample generalization often by more than 0.3 R^2. Our analyses of the experiments shed light on multilingual learning dynamics, transfer properties between languages, and the curse of multilinguality. First, we derive a cross-lingual transfer matrix, empirically measuring mutual benefit scores between 38 x 38=1444 language pairs. Second, we derive a language-agnostic scaling law that reveals how to optimally scale model size and data when adding languages without sacrificing performance. Third, we identify the computational crossover points for when to pretrain from scratch versus finetune from multilingual checkpoints. We hope these findings provide the scientific foundation for democratizing scaling laws across languages, and enable practitioners to efficiently scale models -- beyond English-first AI.
- Abstract(参考訳): しかし、最も顕著なAIモデルは、数十億人の国際ユーザーを明示的に利用している。
本研究は,10M-8Bモデルパラメータ,400以上の訓練言語,48の評価言語を対象とし,これまでで最大規模の多言語スケーリング法を定めている。
本稿では,単言語および多言語事前学習のための適応移動スケーリング法 (ATLAS) を導入し,既存のスケーリング法を0.3R^2以上上回っている場合が多い。
実験結果から,多言語学習のダイナミクス,言語間の伝達特性,多言語性の呪いが明らかになった。
まず,38×38=1444言語対間の相互利益スコアを実験的に測定した言語間移動行列を導出する。
第二に、性能を犠牲にすることなく言語を追加する際に、モデルのサイズとデータを最適にスケールする方法を明らかにする言語に依存しないスケーリング法則を導出する。
第3に,マルチリンガルチェックポイントからスクラッチとファインチューンを事前訓練する際の計算クロスオーバー点を同定する。
これらの発見が、言語間のスケーリング法則を民主化するための科学的基盤を提供し、実践者が効率的にモデルをスケールできるようにすることを期待しています。
関連論文リスト
- Learning the Topic, Not the Language: How LLMs Classify Online Immigration Discourse Across Languages [0.0]
大規模言語モデル(LLM)は、スケーラブルで正確な分析を可能にすることによって、社会科学の研究を変革している。
我々は、移民関連ツイートを分類するために、モノリンガル、バイリンガル、マルチリンガルデータセット上の軽量LLaMA 3.2-3Bモデルを微調整する。
最小限の言語固有の微調整が言語間話題の検出を可能にするか、ターゲット言語を追加することで事前学習バイアスが修正されるかを評価する。
論文 参考訳(メタデータ) (2025-08-08T16:23:24Z) - OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models [55.63479003621053]
本稿では,多言語音声認識および翻訳モデルのオープンアクセススイートであるOWLSを紹介する。
OWLSを使用してニューラルスケーリング法則を導出し、スケーリング時に最終的なパフォーマンスが確実に予測できることを示す。
大規模音声モデルにおける創発的能力の発見により,OWLSを新たな研究方向の電力源として活用する方法を示す。
論文 参考訳(メタデータ) (2025-02-14T18:51:40Z) - Scaling Laws for Multilingual Language Models [41.6318470003173]
多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。
本稿では,各言語群に対するクロスエントロピー損失が,それぞれのサンプリング比でのみ決定されるという仮説を導入し,検証する。
性能とデータセットサイズ,モデルサイズ,サンプリング比率を関連づける,ゆるい関係を導出する。
論文 参考訳(メタデータ) (2024-10-15T20:29:38Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - KBioXLM: A Knowledge-anchored Biomedical Multilingual Pretrained
Language Model [37.69464822182714]
ほとんどの生物医学的な事前訓練された言語モデルはモノリンガルであり、言語間要求の増大に対処できない。
本稿では,多言語事前学習型XLM-Rを知識アンコール手法を用いて生物医学領域に変換するKBioXLMというモデルを提案する。
論文 参考訳(メタデータ) (2023-11-20T07:02:35Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Scaling Laws for Multilingual Neural Machine Translation [45.620062316968976]
モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。
学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。
我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
論文 参考訳(メタデータ) (2023-02-19T18:43:24Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。