論文の概要: Language-Informed Beam Search Decoding for Multilingual Machine Translation
- arxiv url: http://arxiv.org/abs/2408.05738v1
- Date: Sun, 11 Aug 2024 09:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 15:47:38.641053
- Title: Language-Informed Beam Search Decoding for Multilingual Machine Translation
- Title(参考訳): 言語インフォームドビームサーチデコーディングによる多言語機械翻訳
- Authors: Yilin Yang, Stefan Lee, Prasad Tadepalli,
- Abstract要約: 言語インフォームドビームサーチ(Language-informed Beam Search, LiBS)は、市販の言語識別(LiD)モデルをビームサーチデコードに組み込んだ汎用デコードアルゴリズムである。
その結果、提案したLiBSアルゴリズムは平均で+1.1 BLEUと+0.9 BLEUをWMTおよびOPUSデータセットで改善し、ターゲット外レートを22.9%から7.7%、65.8%から25.3%に削減した。
- 参考スコア(独自算出の注目度): 24.044315362087687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Beam search decoding is the de-facto method for decoding auto-regressive Neural Machine Translation (NMT) models, including multilingual NMT where the target language is specified as an input. However, decoding multilingual NMT models commonly produces ``off-target'' translations -- yielding translation outputs not in the intended language. In this paper, we first conduct an error analysis of off-target translations for a strong multilingual NMT model and identify how these decodings are produced during beam search. We then propose Language-informed Beam Search (LiBS), a general decoding algorithm incorporating an off-the-shelf Language Identification (LiD) model into beam search decoding to reduce off-target translations. LiBS is an inference-time procedure that is NMT-model agnostic and does not require any additional parallel data. Results show that our proposed LiBS algorithm on average improves +1.1 BLEU and +0.9 BLEU on WMT and OPUS datasets, and reduces off-target rates from 22.9\% to 7.7\% and 65.8\% to 25.3\% respectively.
- Abstract(参考訳): ビームサーチデコーディング(ビームサーチデコーディング)は、ターゲット言語を入力として指定した多言語NMTを含む自動回帰型ニューラルネットワーク変換(NMT)モデルのデファクト法である。
しかし、多言語NMTモデルの復号化は'off-target''の翻訳を一般的に生成する。
本稿では、まず、強い多言語NMTモデルに対するオフターゲット翻訳の誤り解析を行い、ビームサーチ時にこれらのデコードがどのように生成されるかを特定する。
次に,Language-informed Beam Search (LiBS)を提案する。Language-informed Beam Search (LiBS) は,既製のLanguage Identification (LiD) モデルをビームサーチデコーディングに組み込んだ汎用デコーディングアルゴリズムである。
LiBS は NMT モデルに依存しない推論時プロシージャであり、追加の並列データを必要としない。
その結果,提案したLiBSアルゴリズムは平均で+1.1 BLEUと+0.9 BLEUをWMTおよびOPUSデータセットで改善し,目標外レートを22.9 %から7.7 %,65.8 %から25.3 %に削減した。
関連論文リスト
- LCS: A Language Converter Strategy for Zero-Shot Neural Machine Translation [84.38105530043741]
我々は,Language Converter Strategy (LCS) という,シンプルだが効果的な戦略を提案する。
ターゲット言語をトップエンコーダ層に埋め込むことで、LCSはエンコーダの混乱を緩和し、デコーダの安定した言語表示を保証する。
MultiUN、TED、OPUS-100データセットの実験結果は、LCSがターゲット外の問題を著しく軽減できることを示している。
論文 参考訳(メタデータ) (2024-06-05T02:52:17Z) - Mitigating Hallucinations and Off-target Machine Translation with
Source-Contrastive and Language-Contrastive Decoding [53.84948040596055]
修正された復号化目標を用いて、障害ケースを緩和する2つの関連手法を提案する。
大規模多言語モデルM2M-100 (418M) とSMaLL-100の実験は、これらの手法が幻覚やターゲット外の翻訳を抑制することを示した。
論文 参考訳(メタデータ) (2023-09-13T17:15:27Z) - Improving Zero-shot Multilingual Neural Machine Translation for
Low-Resource Languages [1.0965065178451106]
タグ付き多言語NMTモデルを提案し,これら2つの問題に対処する自己学習アルゴリズムを改良する。
IWSLTの実験結果によると、調整されたタグ付き多言語NMTは、多言語NMTに対して9.41と7.85のBLEUスコアを得る。
論文 参考訳(メタデータ) (2021-10-02T02:50:53Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - HintedBT: Augmenting Back-Translation with Quality and Transliteration
Hints [7.452359972117693]
標的単言語コーパスのバックトランスレーションは、ニューラルマシン翻訳(NMT)に広く用いられているデータ拡張戦略である
私たちは、エンコーダとデコーダにヒント(タグを通して)を提供するテクニックのファミリーであるHintedBTを紹介します。
これらのヒントを別々に使用することで翻訳品質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-09-09T17:43:20Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Improving Target-side Lexical Transfer in Multilingual Neural Machine
Translation [104.10726545151043]
マルチリンガルデータは、LRLからターゲット言語に翻訳するNMTモデルにとって、LRLに翻訳するモデルよりも有益であることが判明した。
実験の結果,DecSDEは最大1.8BLEUの英語から4つの言語への翻訳において一貫した向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-04T19:42:40Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。