論文の概要: Scaling Laws for Multilingual Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2302.09650v1
- Date: Sun, 19 Feb 2023 18:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:12:41.211404
- Title: Scaling Laws for Multilingual Neural Machine Translation
- Title(参考訳): 多言語ニューラルマシン翻訳のスケーリング則
- Authors: Patrick Fernandes, Behrooz Ghorbani, Xavier Garcia, Markus Freitag,
Orhan Firat
- Abstract要約: モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。
学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。
我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
- 参考スコア(独自算出の注目度): 45.620062316968976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we provide a large-scale empirical study of the scaling
properties of multilingual neural machine translation models. We examine how
increases in the model size affect the model performance and investigate the
role of the training mixture composition on the scaling behavior. We find that
changing the weightings of the individual language pairs in the training
mixture only affect the multiplicative factor of the scaling law. In
particular, we observe that multilingual models trained using different mixing
rates all exhibit the same scaling exponent. Through a novel joint scaling law
formulation, we compute the effective number of parameters allocated to each
language pair and examine the role of language similarity in the scaling
behavior of our models. We find little evidence that language similarity has
any impact. In contrast, the direction of the multilinguality plays a
significant role, with models translating from multiple languages into English
having a larger number of effective parameters per task than their reversed
counterparts. Finally, we leverage our observations to predict the performance
of multilingual models trained with any language weighting at any scale,
significantly reducing efforts required for language balancing in large
multilingual models. Our findings apply to both in-domain and out-of-domain
test sets and to multiple evaluation metrics, such as ChrF and BLEURT.
- Abstract(参考訳): 本研究では,多言語ニューラルマシン翻訳モデルのスケーリング特性に関する大規模な実証的研究を行う。
モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討する。
学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。
特に、異なる混合率を用いて訓練された多言語モデルは、すべて同じスケーリング指数を示す。
新たな共同スケーリング法則の定式化により,各言語対に割り当てられたパラメータの有効数を計算し,モデルのスケーリング行動における言語類似性の役割を検討する。
言語の類似性が影響する証拠はほとんどない。
対照的に、多言語性の方向は重要な役割を担い、複数の言語から英語に翻訳されるモデルは、その逆の言語よりもタスクごとに多くの効果的なパラメータを持つ。
最後に,任意の言語重み付けで訓練された多言語モデルの性能を予測するために,我々の観測を活用し,大規模多言語モデルにおける言語バランスに必要な労力を大幅に削減する。
この結果はドメイン内テストセットとドメイン外テストセットの両方に適用でき、chrfやbleurtといった複数の評価指標に適用できる。
関連論文リスト
- Understanding the effects of language-specific class imbalance in
multilingual fine-tuning [0.0]
変換器をベースとしたLarge Language Model (LLM) を不均衡なデータセットで微調整すると性能が低下することを示す。
各言語ごとにクラス重みを別々に計算することで、従来のクラス重み付けアプローチを不均衡に修正する。
論文 参考訳(メタデータ) (2024-02-20T13:59:12Z) - Understanding Calibration for Multilingual Question Answering Models [62.59193996769162]
本研究では,様々な質問応答タスクにおいて,事前学習した多言語大言語モデルの校正特性について検討する。
本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。
モデルキャリブレーションを改善するための高効率な手法として,自動翻訳データ拡張を実演する。
論文 参考訳(メタデータ) (2023-11-15T03:29:02Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - EMS: Efficient and Effective Massively Multilingual Sentence
Representation Learning [31.225252462128626]
本稿では,言語横断文再構成(XTR)と文レベルのコントラスト学習を訓練目的として,効率的かつ効果的な多言語文表現学習(EMS)を導入する。
関連する研究と比較すると,提案したモデルは,非常に少ない並列文とGPU計算資源を用いて効率的に訓練することができる。
62言語をサポートするモデルトレーニング用コードとEMS事前訓練モデルをリリースする。
論文 参考訳(メタデータ) (2022-05-31T12:29:25Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。