論文の概要: Multilingual Machine Translation: Closing the Gap between Shared and
Language-specific Encoder-Decoders
- arxiv url: http://arxiv.org/abs/2004.06575v1
- Date: Tue, 14 Apr 2020 15:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 09:41:33.090859
- Title: Multilingual Machine Translation: Closing the Gap between Shared and
Language-specific Encoder-Decoders
- Title(参考訳): 多言語機械翻訳:共有と言語固有のエンコーダ-デコーダ間のギャップを閉じる
- Authors: Carlos Escolano, Marta R. Costa-juss\`a, Jos\'e A. R. Fonollosa and
Mikel Artetxe
- Abstract要約: 最先端の多言語機械翻訳はユニバーサルエンコーダデコーダに依存している。
本稿では,言語固有のエンコーダデコーダに基づく代替手法を提案する。
- 参考スコア(独自算出の注目度): 20.063065730835874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art multilingual machine translation relies on a universal
encoder-decoder, which requires retraining the entire system to add new
languages. In this paper, we propose an alternative approach that is based on
language-specific encoder-decoders, and can thus be more easily extended to new
languages by learning their corresponding modules. So as to encourage a common
interlingua representation, we simultaneously train the N initial languages.
Our experiments show that the proposed approach outperforms the universal
encoder-decoder by 3.28 BLEU points on average, and when adding new languages,
without the need to retrain the rest of the modules. All in all, our work
closes the gap between shared and language-specific encoder-decoders, advancing
toward modular multilingual machine translation systems that can be flexibly
extended in lifelong learning settings.
- Abstract(参考訳): 最先端の多言語機械翻訳はユニバーサルエンコーダデコーダに依存しており、新しい言語を追加するためにシステム全体をトレーニングする必要がある。
本稿では、言語固有のエンコーダ-デコーダに基づいて、対応するモジュールを学習することによって、新しい言語に拡張しやすい代替手法を提案する。
共通言語間表現を促進するため、N言語の初期言語を同時に訓練する。
提案手法は,平均で3.28 bleu ポイントのユニバーサルエンコーダ-デコーダを上回り,新たな言語を追加する場合,他のモジュールを再トレーニングする必要がないことを示す。
全体として、私たちの研究は共有と言語固有のエンコーダ-デコーダのギャップを狭め、一生の学習環境で柔軟に拡張できるモジュラー多言語機械翻訳システムに向かっています。
関連論文リスト
- Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment [50.80949663719335]
文埋め込みの言語間アライメントの訓練は、個々の言語の意味空間の最適な単言語構造を歪ませる。
我々は、言語間の負の干渉を避けるために、言語固有の文エンコーダを訓練する。
次に、英語以外のすべてのモノリンガルエンコーダを英語エンコーダにアライメントし、その上にクロスリンガルアライメントアダプタをトレーニングする。
論文 参考訳(メタデータ) (2024-07-20T13:56:39Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Bitext Mining Using Distilled Sentence Representations for Low-Resource
Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。
我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。
これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文 参考訳(メタデータ) (2022-05-25T10:53:24Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Improving Zero-shot Neural Machine Translation on Language-specific
Encoders-Decoders [19.44855809470709]
近年,共有エンコーダデコーダを用いたユニバーサルニューラルネットワーク翻訳(NMT)は,ゼロショット翻訳において良好な性能を示した。
ユニバーサルNMTとは異なり、共同で訓練された言語固有のエンコーダ・デコーダは、非共有モジュール間で普遍的な表現を目指す。
言語固有エンコーダ・デコーダを用いたゼロショット翻訳について検討する。
論文 参考訳(メタデータ) (2021-02-12T15:36:33Z) - Transformer-Transducers for Code-Switched Speech Recognition [23.281314397784346]
コード切替音声認識のためのトランスフォーマー・トランスデューサモデルアーキテクチャを用いたエンドツーエンドのASRシステムを提案する。
まず、コードスイッチングの低リソースシナリオを扱うために、2つの補助損失関数を導入する。
第二に,言語ID情報を用いた新しいマスクベースのトレーニング戦略を提案し,文内コードスイッチングに向けたラベルエンコーダのトレーニングを改善する。
論文 参考訳(メタデータ) (2020-11-30T17:27:41Z) - Training Multilingual Machine Translation by Alternately Freezing
Language-Specific Encoders-Decoders [20.063065730835874]
本稿では,新たな言語を追加する際に,既存のシステムを再学習することなく,新たな言語に漸進的に拡張可能な多言語機械翻訳システムを提案する。
エンコーダやデコーダモジュールを交互に凍結することで,すべての翻訳方向で$N$言語を同時にトレーニングする。
多言語機械翻訳による実験結果から,新しい言語の追加やゼロショット翻訳を行う場合,初期言語を少し遅れながら改良したモジュラーアーキテクチャのトレーニングに成功していることがわかった。
論文 参考訳(メタデータ) (2020-05-29T19:00:59Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。