論文の概要: Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation
- arxiv url: http://arxiv.org/abs/2309.16599v1
- Date: Thu, 28 Sep 2023 17:02:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 13:17:21.805885
- Title: Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation
- Title(参考訳): ゼロショット翻訳を改良した負のサンプルの差分調整
- Authors: Changtong Zan, Liang Ding, Li Shen, Yibin Lei, Yibing Zhan, Weifeng
Liu, Dacheng Tao
- Abstract要約: Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
- 参考スコア(独自算出の注目度): 79.96416609433724
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Zero-shot translation (ZST), which is generally based on a multilingual
neural machine translation model, aims to translate between unseen language
pairs in training data. The common practice to guide the zero-shot language
mapping during inference is to deliberately insert the source and target
language IDs, e.g., <EN> for English and <DE> for German. Recent studies have
shown that language IDs sometimes fail to navigate the ZST task, making them
suffer from the off-target problem (non-target language words exist in the
generated translation) and, therefore, difficult to apply the current
multilingual translation model to a broad range of zero-shot language
scenarios. To understand when and why the navigation capabilities of language
IDs are weakened, we compare two extreme decoder input cases in the ZST
directions: Off-Target (OFF) and On-Target (ON) cases. By contrastively
visualizing the contextual word representations (CWRs) of these cases with
teacher forcing, we show that 1) the CWRs of different languages are
effectively distributed in separate regions when the sentence and ID are
matched (ON setting), and 2) if the sentence and ID are unmatched (OFF
setting), the CWRs of different languages are chaotically distributed. Our
analyses suggest that although they work well in ideal ON settings, language
IDs become fragile and lose their navigation ability when faced with off-target
tokens, which commonly exist during inference but are rare in training
scenarios. In response, we employ unlikelihood tuning on the negative (OFF)
samples to minimize their probability such that the language IDs can
discriminate between the on- and off-target tokens during training. Experiments
spanning 40 ZST directions show that our method reduces the off-target ratio by
-48.0% on average, leading to a +9.1 BLEU improvement with only an extra +0.3%
tuning cost.
- Abstract(参考訳): ゼロショット翻訳(ZST)は、一般的に多言語ニューラルマシン翻訳モデルに基づいており、トレーニングデータにおいて目に見えない言語ペア間の翻訳を目的としている。
推論中のゼロショット言語マッピングをガイドする一般的な実践は、ソースとターゲットの言語IDを意図的に挿入する、例えば、英語の<EN>とドイツ語の<DE>である。
近年の研究では、言語idは時としてzstタスクのナビゲートに失敗し、ターゲット外の問題(生成した翻訳に目標語以外の単語が存在する)に苦しむため、現在の多言語翻訳モデルを広範囲のゼロショット言語シナリオに適用することは困難である。
言語idのナビゲーション能力が弱まる理由を理解するため、zst方向の2つの極端なデコーダ入力ケースを比較する:オフターゲット(オフ)とオンターゲット(オン)ケース。
これら事例の文脈的単語表現(CWR)を教師強制で対照的に可視化することにより、そのことを示す。
1) 文とIDが一致した場合(ON設定)、異なる言語のCWRを独立領域に効果的に分散する。
2) 文とIDが一致しない場合(OFF設定)、異なる言語のCWRをカオス的に分配する。
分析結果から,言語idが脆弱になり,推定中に一般的に存在するが,訓練シナリオでは稀であるオフターゲットトークンに直面するとナビゲーション能力が失われることが示唆された。
これに対し、負のサンプル(OFF)に対して、トレーニング中に言語IDがオン・ターゲットトークンとオフ・ターゲットトークンを区別できるように、その確率を最小化する。
40ZST方向にわたる実験により,本手法は目標外比を平均-48.0%削減し,追加の+0.3%のチューニングコストで+9.1BLEUの改善を実現した。
関連論文リスト
- ChatZero:Zero-shot Cross-Lingual Dialogue Generation via Pseudo-Target Language [53.8622516025736]
そこで本研究では,言語間符号切替方式に基づく,エンドツーエンドのゼロショット対話生成モデルChatZeroを提案する。
多言語DailyDialogとDSTC7-AVSDデータセットの実験は、ChatZeroが元のパフォーマンスの90%以上を達成することを示した。
論文 参考訳(メタデータ) (2024-08-16T13:11:53Z) - Languages Transferred Within the Encoder: On Representation Transfer in Zero-Shot Multilingual Translation [16.368747052909214]
多言語調査における基本尺度の欠如に対処するため,自己翻訳文であるアイデンティティペアを導入する。
エンコーダは、言語に依存しない状態ではなく、対象言語の表現部分空間にソース言語を転送することを示した。
本研究では,1)エンコーダにおける低ランク言語固有の埋め込みと,2)デコーダにおける表現の言語固有のコントラスト学習の2つの手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T11:16:30Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Zero-shot Speech Translation [0.0]
音声翻訳(英: Speech Translation、ST)とは、ある言語の音声を他の言語のテキストに変換するタスクである。
エンドツーエンドのアプローチでは、エラーの伝播を避けるために1つのシステムのみを使用するが、データ不足のため、利用は困難である。
学習中に目に見えない言語のペアを翻訳できるゼロショット翻訳について検討する。
論文 参考訳(メタデータ) (2021-07-13T12:00:44Z) - Improving Zero-Shot Translation by Disentangling Positional Information [24.02434897109097]
言語固有の表現を引き起こす主な要因は、入力トークンに対する位置対応であることを示す。
指示方向の品質を維持しながら、ゼロショット翻訳で最大18.5 BLEUポイントを得る。
論文 参考訳(メタデータ) (2020-12-30T12:20:41Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。