論文の概要: Causes and Cures for Interference in Multilingual Translation
- arxiv url: http://arxiv.org/abs/2212.07530v1
- Date: Wed, 14 Dec 2022 22:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 15:39:33.151757
- Title: Causes and Cures for Interference in Multilingual Translation
- Title(参考訳): 多言語翻訳における干渉の原因と治療
- Authors: Uri Shaham and Maha Elbayad and Vedanuj Goswami and Omer Levy and
Shruti Bhosale
- Abstract要約: この研究は、多言語機械翻訳における干渉に寄与する主な要因を特定する。
利用可能なトレーニングデータに関して、モデルが非常に小さい場合を中心に、かなりの干渉が発生することを観察する。
データ中の各言語ペアの比率を制御するためにサンプリング温度をチューニングすることは、干渉の量を調整する鍵となる。
- 参考スコア(独自算出の注目度): 44.98751458618928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual machine translation models can benefit from synergy between
different language pairs, but also suffer from interference. While there is a
growing number of sophisticated methods that aim to eliminate interference, our
understanding of interference as a phenomenon is still limited. This work
identifies the main factors that contribute to interference in multilingual
machine translation. Through systematic experimentation, we find that
interference (or synergy) are primarily determined by model size, data size,
and the proportion of each language pair within the total dataset. We observe
that substantial interference occurs mainly when the model is very small with
respect to the available training data, and that using standard transformer
configurations with less than one billion parameters largely alleviates
interference and promotes synergy. Moreover, we show that tuning the sampling
temperature to control the proportion of each language pair in the data is key
to balancing the amount of interference between low and high resource language
pairs effectively, and can lead to superior performance overall.
- Abstract(参考訳): 多言語機械翻訳モデルは、異なる言語ペア間のシナジーの恩恵を受けるが、干渉も受ける。
干渉を排除しようとする高度な手法が増えているが、干渉を現象として理解することは依然として限られている。
この研究は多言語機械翻訳における干渉に寄与する主な要因を特定する。
系統的な実験により、干渉(またはシナジー)はモデルのサイズ、データサイズ、および全データセット内の各言語ペアの割合によって決定されることがわかった。
モデルが利用可能なトレーニングデータに対して非常に小さい場合,10億未満のパラメータを持つ標準トランスフォーマー構成を用いることで,干渉が軽減され,シナジーが促進されることが観察された。
また,データ内の各言語対の比率を制御するためにサンプリング温度をチューニングすることが,低資源言語対と高資源言語対の干渉量を効果的にバランスさせる上で重要であることを示す。
関連論文リスト
- Causal Message Passing for Experiments with Unknown and General Network Interference [5.294604210205507]
複雑で未知のネットワーク干渉に対応する新しいフレームワークを提案する。
我々のフレームワークは因果的メッセージパッシングと呼ばれ、高次元近似的メッセージパッシング手法に基づいている。
本手法の有効性を5つの数値シナリオで示す。
論文 参考訳(メタデータ) (2023-11-14T17:31:50Z) - Communication Efficient Federated Learning for Multilingual Neural
Machine Translation with Adapter [21.512817959760007]
Federated Multilingual Neural Machine Translation (Fed-MNMT)は、限られた言語資源を持つ機関にとって有望なパラダイムとして登場した。
このアプローチにより、複数の機関がクライアントとして行動し、集中的なトレーニングのためにセンシティブなデータを収集するのではなく、モデル同期を通じて統一されたモデルをトレーニングできる。
しかし, 事前学習言語モデル (PLM) のサイズが大きくなるにつれ, 同期時のパラメータ伝達の通信コストは, 訓練速度のボトルネックとなっている。
PLMを凍結し,クライアント間でのみ軽量なアダプタモジュールを転送することで,この問題に対処する通信効率の高いFed-MNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-21T12:48:38Z) - Scaling Laws for Multilingual Neural Machine Translation [45.620062316968976]
モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討した。
学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。
我々は、どんな言語重み付けでも訓練された多言語モデルの性能を予測するために、我々の観測を活用している。
論文 参考訳(メタデータ) (2023-02-19T18:43:24Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training [58.72619374790418]
MultiUATはモデルの不確実性に基づいてトレーニングデータの使用量を動的に調整する。
クロスドメイン転送を解析し、静的および類似性に基づく手法の欠如を示す。
論文 参考訳(メタデータ) (2021-09-06T08:30:33Z) - Adaptive Sparse Transformer for Multilingual Translation [18.017674093519332]
多言語モデルの既知の課題は、否定的な言語干渉です。
多言語モデリングのための適応的でスパースなアーキテクチャを提案する。
我々のモデルは、推論コストを増加させることなく、翻訳品質の点で強力なベースラインを上回る。
論文 参考訳(メタデータ) (2021-04-15T10:31:07Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z) - Modeling Voting for System Combination in Machine Translation [92.09572642019145]
本稿では,機械翻訳におけるシステムの組み合わせに対する投票のモデル化手法を提案する。
提案手法は,仮説間の関係を解析できるだけでなく,エンドツーエンドのトレーニングを可能にするため,統計的手法とニューラル手法の利点を組み合わせたものである。
論文 参考訳(メタデータ) (2020-07-14T09:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。