Fugu-MT 論文翻訳(概要): Scaling Laws for Multilingual Neural Machine Translation

論文の概要: Scaling Laws for Multilingual Neural Machine Translation

arxiv url: http://arxiv.org/abs/2302.09650v1
Date: Sun, 19 Feb 2023 18:43:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-21 17:12:41.211404
Title: Scaling Laws for Multilingual Neural Machine Translation
Title（参考訳）: 多言語ニューラルマシン翻訳のスケーリング則
Authors: Patrick Fernandes, Behrooz Ghorbani, Xavier Garcia, Markus Freitag, Orhan Firat
Abstract要約: モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
参考スコア（独自算出の注目度）: 45.620062316968976
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we provide a large-scale empirical study of the scaling properties of multilingual neural machine translation models. We examine how increases in the model size affect the model performance and investigate the role of the training mixture composition on the scaling behavior. We find that changing the weightings of the individual language pairs in the training mixture only affect the multiplicative factor of the scaling law. In particular, we observe that multilingual models trained using different mixing rates all exhibit the same scaling exponent. Through a novel joint scaling law formulation, we compute the effective number of parameters allocated to each language pair and examine the role of language similarity in the scaling behavior of our models. We find little evidence that language similarity has any impact. In contrast, the direction of the multilinguality plays a significant role, with models translating from multiple languages into English having a larger number of effective parameters per task than their reversed counterparts. Finally, we leverage our observations to predict the performance of multilingual models trained with any language weighting at any scale, significantly reducing efforts required for language balancing in large multilingual models. Our findings apply to both in-domain and out-of-domain test sets and to multiple evaluation metrics, such as ChrF and BLEURT.
Abstract（参考訳）: 本研究では,多言語ニューラルマシン翻訳モデルのスケーリング特性に関する大規模な実証的研究を行う。モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討する。学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。特に、異なる混合率を用いて訓練された多言語モデルは、すべて同じスケーリング指数を示す。新たな共同スケーリング法則の定式化により,各言語対に割り当てられたパラメータの有効数を計算し,モデルのスケーリング行動における言語類似性の役割を検討する。言語の類似性が影響する証拠はほとんどない。対照的に、多言語性の方向は重要な役割を担い、複数の言語から英語に翻訳されるモデルは、その逆の言語よりもタスクごとに多くの効果的なパラメータを持つ。最後に,任意の言語重み付けで訓練された多言語モデルの性能を予測するために,我々の観測を活用し,大規模多言語モデルにおける言語バランスに必要な労力を大幅に削減する。この結果はドメイン内テストセットとドメイン外テストセットの両方に適用でき、chrfやbleurtといった複数の評価指標に適用できる。

関連論文リスト

The Impact of Model Scaling on Seen and Unseen Language Performance [2.012425476229879]
本研究では204言語にわたる多言語大言語モデルの性能とスケーリングの挙動について検討する。その結果,ゼロショットシナリオと2ショットシナリオのスケーリング挙動に有意な差が認められた。 2ショット設定では、より大きなモデルは多言語テキスト分類において明確な線形改善を示す。
論文参考訳（メタデータ） (2025-01-10T00:10:21Z)
Cross-Linguistic Examination of Machine Translation Transfer Learning [0.0]
本研究では,多種多様な言語族を対象とした機械翻訳における伝達学習の有効性について検討した。この研究は、異なる言語背景からの言語ペアを含んでいる。その結果,移動学習は言語家族間で有効であることが示唆された。
論文参考訳（メタデータ） (2024-12-27T16:34:56Z)
Beyond Data Quantity: Key Factors Driving Performance in Multilingual Language Models [1.5703073293718952]
モデル性能を向上させるために、事前訓練データとモデルサイズとともに、重要な要因としてのトーケン類似性と国間類似性を考察した。これらの洞察は、より公平で効果的な多言語言語モデルを開発するための貴重なガイダンスを提供する。
論文参考訳（メタデータ） (2024-12-17T03:05:26Z)
Scaling Laws for Multilingual Language Models [41.6318470003173]
多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。本稿では,各言語群に対するクロスエントロピー損失が,それぞれのサンプリング比でのみ決定されるという仮説を導入し,検証する。性能とデータセットサイズ,モデルサイズ,サンプリング比率を関連づける,ゆるい関係を導出する。
論文参考訳（メタデータ） (2024-10-15T20:29:38Z)
Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文参考訳（メタデータ） (2024-05-17T17:49:44Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
Understanding the effects of language-specific class imbalance in multilingual fine-tuning [0.0]
変換器をベースとしたLarge Language Model (LLM) を不均衡なデータセットで微調整すると性能が低下することを示す。各言語ごとにクラス重みを別々に計算することで、従来のクラス重み付けアプローチを不均衡に修正する。
論文参考訳（メタデータ） (2024-02-20T13:59:12Z)
On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文参考訳（メタデータ） (2023-11-14T00:43:33Z)
Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文参考訳（メタデータ） (2023-10-12T22:44:19Z)
Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文参考訳（メタデータ） (2022-05-24T03:35:00Z)
How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文参考訳（メタデータ） (2020-12-31T14:11:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。