論文の概要: Balancing Training for Multilingual Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2004.06748v4
- Date: Sat, 5 Sep 2020 22:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 09:41:17.513375
- Title: Balancing Training for Multilingual Neural Machine Translation
- Title(参考訳): 多言語ニューラルマシン翻訳のためのバランストレーニング
- Authors: Xinyi Wang, Yulia Tsvetkov, Graham Neubig
- Abstract要約: 多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
- 参考スコア(独自算出の注目度): 130.54253367251738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When training multilingual machine translation (MT) models that can translate
to/from multiple languages, we are faced with imbalanced training sets: some
languages have much more training data than others. Standard practice is to
up-sample less resourced languages to increase representation, and the degree
of up-sampling has a large effect on the overall performance. In this paper, we
propose a method that instead automatically learns how to weight training data
through a data scorer that is optimized to maximize performance on all test
languages. Experiments on two sets of languages under both one-to-many and
many-to-one MT settings show our method not only consistently outperforms
heuristic baselines in terms of average performance, but also offers flexible
control over the performance of which languages are optimized.
- Abstract(参考訳): 複数の言語への翻訳が可能なマルチ言語機械翻訳(MT)モデルをトレーニングする場合、私たちは不均衡なトレーニングセットに直面します。
標準的な実践は、より少ないリソース言語をサンプリングして表現を増加させることであり、アップサンプリングの度合いが全体的なパフォーマンスに大きな影響を与える。
本稿では,すべてのテスト言語の性能を最大化するために最適化されたデータスコアラを用いて,トレーニングデータの重み付けを自動的に学習する手法を提案する。
1対1のMT設定と多対1のMT設定の2つの言語に対する実験は、平均性能においてヒューリスティックベースラインを一貫して上回るだけでなく、どの言語が最適化されているかを柔軟に制御できることを示している。
関連論文リスト
- On the Pareto Front of Multilingual Neural Machine Translation [123.94355117635293]
我々は、ニューラルネットワーク翻訳(MNMT)におけるサンプリング比によって、与えられた方向の性能がどう変化するかを検討する。
我々は,MNMTにおけるユニークなパフォーマンストレードオフフロントを予測するために,ダブルパワー法を提案する。
本実験では, トレーニング予算の1/5から1/2に過ぎず, 温度探索法や勾配操作法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2023-04-06T16:49:19Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Multi-task Learning for Multilingual Neural Machine Translation [32.81785430242313]
本稿では,bitextデータ上での翻訳タスクと,モノリンガルデータ上での2つの認知タスクを併用してモデルを学習するマルチタスク学習フレームワークを提案する。
提案手法は,高リソース言語と低リソース言語の両方の翻訳品質を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-10-06T06:54:12Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。