論文の概要: LCS: A Language Converter Strategy for Zero-Shot Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2406.02876v2
- Date: Thu, 6 Jun 2024 03:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 19:34:24.463027
- Title: LCS: A Language Converter Strategy for Zero-Shot Neural Machine Translation
- Title(参考訳): LCS:ゼロショットニューラルネットワーク翻訳のための言語コンバータ戦略
- Authors: Zengkui Sun, Yijin Liu, Fandong Meng, Jinan Xu, Yufeng Chen, Jie Zhou,
- Abstract要約: 我々は,Language Converter Strategy (LCS) という,シンプルだが効果的な戦略を提案する。
ターゲット言語をトップエンコーダ層に埋め込むことで、LCSはエンコーダの混乱を緩和し、デコーダの安定した言語表示を保証する。
MultiUN、TED、OPUS-100データセットの実験結果は、LCSがターゲット外の問題を著しく軽減できることを示している。
- 参考スコア(独自算出の注目度): 84.38105530043741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual neural machine translation models generally distinguish translation directions by the language tag (LT) in front of the source or target sentences. However, current LT strategies cannot indicate the desired target language as expected on zero-shot translation, i.e., the off-target issue. Our analysis reveals that the indication of the target language is sensitive to the placement of the target LT. For example, when placing the target LT on the decoder side, the indication would rapidly degrade along with decoding steps, while placing the target LT on the encoder side would lead to copying or paraphrasing the source input. To address the above issues, we propose a simple yet effective strategy named Language Converter Strategy (LCS). By introducing the target language embedding into the top encoder layers, LCS mitigates confusion in the encoder and ensures stable language indication for the decoder. Experimental results on MultiUN, TED, and OPUS-100 datasets demonstrate that LCS could significantly mitigate the off-target issue, with language accuracy up to 95.28%, 96.21%, and 85.35% meanwhile outperforming the vanilla LT strategy by 3.07, 3,3, and 7.93 BLEU scores on zero-shot translation, respectively.
- Abstract(参考訳): 多言語ニューラルマシン翻訳モデルは、典型的には、ソースまたはターゲット文の前にある言語タグ(LT)によって翻訳方向を区別する。
しかし、現在のLT戦略は、ゼロショット翻訳で期待されているように、望まれるターゲット言語、すなわちオフターゲット問題を示すことはできない。
例えば、対象言語をデコーダ側に置くと、デコーダ側に置くと、デコーダ側に置くと、ターゲット言語をエンコーダ側に置くと、ソース入力のコピーやパラフレーズ化につながる。
上記の課題に対処するため,Language Converter Strategy (LCS) という,シンプルながら効果的な戦略を提案する。
ターゲット言語をトップエンコーダ層に埋め込むことで、LCSはエンコーダの混乱を緩和し、デコーダの安定した言語表示を保証する。
MultiUN、TED、OPUS-100データセットの実験結果は、LCSが目標外の問題を著しく軽減し、言語精度は95.28%、96.21%、85.35%、バニラLTの戦略は3.07、3.3、733 BLEUでそれぞれ上回っていることを示している。
関連論文リスト
- Language-Informed Beam Search Decoding for Multilingual Machine Translation [24.044315362087687]
言語インフォームドビームサーチ(Language-informed Beam Search, LiBS)は、市販の言語識別(LiD)モデルをビームサーチデコードに組み込んだ汎用デコードアルゴリズムである。
その結果、提案したLiBSアルゴリズムは平均で+1.1 BLEUと+0.9 BLEUをWMTおよびOPUSデータセットで改善し、ターゲット外レートを22.9%から7.7%、65.8%から25.3%に削減した。
論文 参考訳(メタデータ) (2024-08-11T09:57:46Z) - Languages Transferred Within the Encoder: On Representation Transfer in Zero-Shot Multilingual Translation [16.368747052909214]
多言語調査における基本尺度の欠如に対処するため,自己翻訳文であるアイデンティティペアを導入する。
エンコーダは、言語に依存しない状態ではなく、対象言語の表現部分空間にソース言語を転送することを示した。
本研究では,1)エンコーダにおける低ランク言語固有の埋め込みと,2)デコーダにおける表現の言語固有のコントラスト学習の2つの手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T11:16:30Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Language Tags Matter for Zero-Shot Neural Machine Translation [17.353423698436547]
言語タグ(LT)戦略は、MNMTの翻訳方向を示すためにしばしば採用される。
我々は,LTが翻訳方向の指標であるだけでなく,ゼロショット翻訳の品質にも重要であることを実証した。
実験の結果、ソース言語タグ(SLT)を無視して、ターゲット言語タグ(TLT)をエンコーダに追加することで、ゼロショット翻訳は+8BLEUスコア差が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-15T07:32:36Z) - Improving Target-side Lexical Transfer in Multilingual Neural Machine
Translation [104.10726545151043]
マルチリンガルデータは、LRLからターゲット言語に翻訳するNMTモデルにとって、LRLに翻訳するモデルよりも有益であることが判明した。
実験の結果,DecSDEは最大1.8BLEUの英語から4つの言語への翻訳において一貫した向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-04T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。