論文の概要: Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation
- arxiv url: http://arxiv.org/abs/2305.12786v1
- Date: Mon, 22 May 2023 07:31:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:37:47.159327
- Title: Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation
- Title(参考訳): 多言語機械翻訳におけるデータ不均衡と表現変性の緩和
- Authors: Wen Lai, Alexandra Chronopoulou, Alexander Fraser
- Abstract要約: Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
- 参考スコア(独自算出の注目度): 128.69723410769586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in multilingual neural machine translation (MNMT), we argue
that there are still two major challenges in this area: data imbalance and
representation degeneration. The data imbalance problem refers to the imbalance
in the amount of parallel corpora for all language pairs, especially for
long-tail languages (i.e., very low-resource languages). The representation
degeneration problem refers to the problem of encoded tokens tending to appear
only in a small subspace of the full space available to the MNMT model. To
solve these two issues, we propose Bi-ACL, a framework that uses only
target-side monolingual data and a bilingual dictionary to improve the
performance of the MNMT model. We define two modules, named bidirectional
autoencoder and bidirectional contrastive learning, which we combine with an
online constrained beam search and a curriculum learning sampling strategy.
Extensive experiments show that our proposed method is more effective both in
long-tail languages and in high-resource languages. We also demonstrate that
our approach is capable of transferring knowledge between domains and languages
in zero-shot scenarios.
- Abstract(参考訳): 多言語ニューラルマシン翻訳(mnmt)の進歩にもかかわらず、この分野には依然として2つの大きな課題があると主張している。
データ不均衡問題は、全ての言語対、特にロングテール言語(すなわち非常に低リソース言語)における並列コーパスの量の不均衡を指す。
表現退化問題(representation degeneration problem)とは、mnmtモデルで利用可能な全空間の小さな部分空間にのみ現れるエンコードされたトークンの問題を指す。
そこで,本稿では,mnmtモデルの性能向上のために,ターゲット側単言語データとバイリンガル辞書のみを使用するフレームワークであるbi-aclを提案する。
我々は、オンライン制約ビーム探索とカリキュラム学習サンプリング戦略を組み合わせた双方向オートエンコーダと双方向コントラスト学習という2つのモジュールを定義した。
広範な実験により,提案手法は,ロングテール言語と高リソース言語の両方においてより効果的であることが判明した。
また,我々のアプローチは,ゼロショットシナリオでドメインと言語間の知識を伝達できることを実証する。
関連論文リスト
- ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Low-resource Neural Machine Translation with Cross-modal Alignment [15.416659725808822]
そこで我々は,すべての言語で共有空間を学習するクロスモーダル・コントラスト学習法を提案する。
実験結果とさらなる解析により,少数の画像・テキスト・ペアによる相互・言語間のアライメントを効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T04:15:43Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Bilingual alignment transfers to multilingual alignment for unsupervised
parallel text mining [3.4519649635864584]
本研究は、ペアまたはペアなしのバイリンガルテキストを用いた言語間表現の学習手法を提案する。
我々は、言語間アライメント戦略は転送可能であり、2つの言語のみをアライメントするように訓練されたモデルは、多言語的によりアライメントされた表現を符号化できると仮定する。
論文 参考訳(メタデータ) (2021-04-15T17:51:22Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Multi-task Learning for Multilingual Neural Machine Translation [32.81785430242313]
本稿では,bitextデータ上での翻訳タスクと,モノリンガルデータ上での2つの認知タスクを併用してモデルを学習するマルチタスク学習フレームワークを提案する。
提案手法は,高リソース言語と低リソース言語の両方の翻訳品質を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-10-06T06:54:12Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。