論文の概要: Mitigating Hallucinations and Off-target Machine Translation with
Source-Contrastive and Language-Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2309.07098v2
- Date: Mon, 29 Jan 2024 09:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:10:36.111691
- Title: Mitigating Hallucinations and Off-target Machine Translation with
Source-Contrastive and Language-Contrastive Decoding
- Title(参考訳): ソース・コントラストおよび言語・コントラスト・デコーディングによる幻覚とオフターゲット機械翻訳の緩和
- Authors: Rico Sennrich and Jannis Vamvas and Alireza Mohammadshahi
- Abstract要約: 修正された復号化目標を用いて、障害ケースを緩和する2つの関連手法を提案する。
大規模多言語モデルM2M-100 (418M) とSMaLL-100の実験は、これらの手法が幻覚やターゲット外の翻訳を抑制することを示した。
- 参考スコア(独自算出の注目度): 53.84948040596055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations and off-target translation remain unsolved problems in MT,
especially for low-resource languages and massively multilingual models. In
this paper, we introduce two related methods to mitigate these failure cases
with a modified decoding objective, without either requiring retraining or
external models. In source-contrastive decoding, we search for a translation
that is probable given the correct input, but improbable given a random input
segment. In language-contrastive decoding, we search for a translation that is
probable, but improbable given the wrong language indicator token. Experiments
on the massively multilingual models M2M-100 (418M) and SMaLL-100 show that
these methods suppress hallucinations and off-target translations, reducing the
number of translations with segment-level chrF2 below 10 by 67-83% on average,
and the number of translations with oscillatory hallucinations by 75-92% on
average, across 57 tested translation directions. In a proof of concept on
out-of-English translation, we also show that we can suppress off-target
translations with large language models. We release our source code at
https://github.com/ZurichNLP/ContraDecode.
- Abstract(参考訳): 特に低リソース言語や多言語モデルでは、幻覚やオフターゲット翻訳は未解決の問題である。
本稿では,再学習や外部モデルを必要とすることなく,復号化の目的を改良した2つの障害事例を緩和する手法を提案する。
ソース・コントラスト・デコードでは、正しい入力が与えられているが、ランダムな入力セグメントが与えられない翻訳を探索する。
言語結合型デコードでは、間違った言語指示トークンを考えると、あり得るが、あり得ない翻訳を探索する。
大規模多言語モデルM2M-100 (418M) とSMaLL-100の実験では、これらの手法は幻覚とオフターゲット翻訳を抑制し、セグメントレベルchrF2の翻訳を平均で10~67~83%減らし、発振幻覚を持つ翻訳を平均75~92%減らした。
英語外翻訳の概念の実証として,大規模言語モデルを用いた目標外翻訳を抑制できることを示した。
ソースコードはhttps://github.com/ZurichNLP/ContraDecode.comで公開しています。
関連論文リスト
- Language-Informed Beam Search Decoding for Multilingual Machine Translation [24.044315362087687]
言語インフォームドビームサーチ(Language-informed Beam Search, LiBS)は、市販の言語識別(LiD)モデルをビームサーチデコードに組み込んだ汎用デコードアルゴリズムである。
その結果、提案したLiBSアルゴリズムは平均で+1.1 BLEUと+0.9 BLEUをWMTおよびOPUSデータセットで改善し、ターゲット外レートを22.9%から7.7%、65.8%から25.3%に削減した。
論文 参考訳(メタデータ) (2024-08-11T09:57:46Z) - Paying More Attention to Source Context: Mitigating Unfaithful Translations from Large Language Model [28.288949710191158]
大規模言語モデル(LLM)は、印象的な多言語機械翻訳能力を示した。
エンコーダ-デコーダスタイルのモデルとは異なり、デコーダのみのLLMはソースとターゲットのコンテキストの間に明確なアライメントを欠いている。
我々はLLMに対して、ソースとターゲットの両方の観点から、ソースコンテキストにもっと注意を払うよう推奨する。
論文 参考訳(メタデータ) (2024-06-11T07:49:04Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Hallucinations in Large Multilingual Translation Models [70.10455226752015]
大規模多言語機械翻訳システムでは、多数の言語間で直接翻訳できることが顕著に示されている。
野生に配備されると、これらのモデルが幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念が高まる。
幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-28T16:17:59Z) - Improving Zero-Shot Translation by Disentangling Positional Information [24.02434897109097]
言語固有の表現を引き起こす主な要因は、入力トークンに対する位置対応であることを示す。
指示方向の品質を維持しながら、ゼロショット翻訳で最大18.5 BLEUポイントを得る。
論文 参考訳(メタデータ) (2020-12-30T12:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。