論文の概要: Scaling Laws for Multilingual Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2302.09650v1
- Date: Sun, 19 Feb 2023 18:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:12:41.211404
- Title: Scaling Laws for Multilingual Neural Machine Translation
- Title(参考訳): 多言語ニューラルマシン翻訳のスケーリング則
- Authors: Patrick Fernandes, Behrooz Ghorbani, Xavier Garcia, Markus Freitag,
Orhan Firat
- Abstract要約: モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。
学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。
我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
- 参考スコア(独自算出の注目度): 45.620062316968976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we provide a large-scale empirical study of the scaling
properties of multilingual neural machine translation models. We examine how
increases in the model size affect the model performance and investigate the
role of the training mixture composition on the scaling behavior. We find that
changing the weightings of the individual language pairs in the training
mixture only affect the multiplicative factor of the scaling law. In
particular, we observe that multilingual models trained using different mixing
rates all exhibit the same scaling exponent. Through a novel joint scaling law
formulation, we compute the effective number of parameters allocated to each
language pair and examine the role of language similarity in the scaling
behavior of our models. We find little evidence that language similarity has
any impact. In contrast, the direction of the multilinguality plays a
significant role, with models translating from multiple languages into English
having a larger number of effective parameters per task than their reversed
counterparts. Finally, we leverage our observations to predict the performance
of multilingual models trained with any language weighting at any scale,
significantly reducing efforts required for language balancing in large
multilingual models. Our findings apply to both in-domain and out-of-domain
test sets and to multiple evaluation metrics, such as ChrF and BLEURT.
- Abstract(参考訳): 本研究では,多言語ニューラルマシン翻訳モデルのスケーリング特性に関する大規模な実証的研究を行う。
モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討する。
学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。
特に、異なる混合率を用いて訓練された多言語モデルは、すべて同じスケーリング指数を示す。
新たな共同スケーリング法則の定式化により,各言語対に割り当てられたパラメータの有効数を計算し,モデルのスケーリング行動における言語類似性の役割を検討する。
言語の類似性が影響する証拠はほとんどない。
対照的に、多言語性の方向は重要な役割を担い、複数の言語から英語に翻訳されるモデルは、その逆の言語よりもタスクごとに多くの効果的なパラメータを持つ。
最後に,任意の言語重み付けで訓練された多言語モデルの性能を予測するために,我々の観測を活用し,大規模多言語モデルにおける言語バランスに必要な労力を大幅に削減する。
この結果はドメイン内テストセットとドメイン外テストセットの両方に適用でき、chrfやbleurtといった複数の評価指標に適用できる。
関連論文リスト
- Scaling Laws for Multilingual Language Models [41.6318470003173]
多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。
本稿では,各言語群に対するクロスエントロピー損失が,それぞれのサンプリング比でのみ決定されるという仮説を導入し,検証する。
性能とデータセットサイズ,モデルサイズ,サンプリング比率を関連づける,ゆるい関係を導出する。
論文 参考訳(メタデータ) (2024-10-15T20:29:38Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Understanding the effects of language-specific class imbalance in
multilingual fine-tuning [0.0]
変換器をベースとしたLarge Language Model (LLM) を不均衡なデータセットで微調整すると性能が低下することを示す。
各言語ごとにクラス重みを別々に計算することで、従来のクラス重み付けアプローチを不均衡に修正する。
論文 参考訳(メタデータ) (2024-02-20T13:59:12Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。