論文の概要: Addressing the Vulnerability of NMT in Input Perturbations
- arxiv url: http://arxiv.org/abs/2104.09810v1
- Date: Tue, 20 Apr 2021 07:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 21:32:39.768247
- Title: Addressing the Vulnerability of NMT in Input Perturbations
- Title(参考訳): 入力摂動におけるNMTの脆弱性への対処
- Authors: Weiwen Xu, Ai Ti Aw, Yang Ding, Kui Wu, Shafiq Joty
- Abstract要約: 文脈拡張再構成手法により,雑音のある単語の効果を低減し,NMTモデルのロバスト性を向上させる。
CERは、(1)入力シーケンスの自然性を判断するステップ、(2)より優れた、より堅牢な文脈表現を生成することで、ノイズ伝搬を防御するステップの2つのステップで、ノイズに抵抗するモデルを訓練する。
- 参考スコア(独自算出の注目度): 10.103375853643547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Machine Translation (NMT) has achieved significant breakthrough in
performance but is known to suffer vulnerability to input perturbations. As
real input noise is difficult to predict during training, robustness is a big
issue for system deployment. In this paper, we improve the robustness of NMT
models by reducing the effect of noisy words through a Context-Enhanced
Reconstruction (CER) approach. CER trains the model to resist noise in two
steps: (1) perturbation step that breaks the naturalness of input sequence with
made-up words; (2) reconstruction step that defends the noise propagation by
generating better and more robust contextual representation. Experimental
results on Chinese-English (ZH-EN) and French-English (FR-EN) translation tasks
demonstrate robustness improvement on both news and social media text. Further
fine-tuning experiments on social media text show our approach can converge at
a higher position and provide a better adaptation.
- Abstract(参考訳): Neural Machine Translation (NMT)は、パフォーマンスにおいて大きなブレークスルーを達成したが、入力摂動の脆弱性が知られている。
実際の入力ノイズはトレーニング中の予測が難しいため、システムのデプロイメントでは堅牢性が大きな問題になります。
本稿では,コンテキストエンハンスド・リコンストラクション(cer)アプローチによる雑音単語の影響を低減し,nmtモデルのロバスト性を向上させる。
cerは、(1)入力シーケンスの自然な性質をメークアップワードで破る摂動ステップ、(2)より良くロバストなコンテクスト表現を生成してノイズ伝搬を防御する再構築ステップの2段階のノイズに抵抗するようにモデルを訓練する。
中国語-英語(ZH-EN)とフランス語-英語(FR-EN)の翻訳タスクの実験結果から,ニューステキストとソーシャルメディアテキストの両方において堅牢性の向上が示された。
ソーシャルメディアテキストにおけるさらなる微調整実験は,より高い位置に収束し,より良い適応を提供することができることを示す。
関連論文リスト
- Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Phrase-level Adversarial Example Generation for Neural Machine
Translation [75.01476479100569]
本稿では,句レベルの逆例生成(PAEG)手法を提案し,モデルの堅牢性を高める。
我々は,LDC中英語,IWSLT14ドイツ語-英語,WMT14英語-ドイツ語タスクの3つのベンチマークで検証を行った。
論文 参考訳(メタデータ) (2022-01-06T11:00:49Z) - Frequency-Aware Contrastive Learning for Neural Machine Translation [24.336356651877388]
低周波ワード予測は、現代のニューラルマシン翻訳(NMT)システムにおいて依然として課題である。
低周波単語がよりコンパクトな埋め込み空間を形成するという観察に触発されて、表現学習の観点からこの問題に取り組む。
本稿では,各復号ステップの隠蔽状態を他のターゲット語から押し出す,周波数対応のトークンレベルのコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-29T10:10:10Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Improving Translation Robustness with Visual Cues and Error Correction [58.97421756225425]
ノイズの多いテキストに対する翻訳の堅牢性を改善するビジュアルコンテキストのアイデアを紹介します。
また,誤り訂正を補助タスクとして扱うことで,新しい誤り訂正訓練手法を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:31:34Z) - Revisiting Robust Neural Machine Translation: A Transformer Case Study [30.70732321809362]
ノイズがトランスフォーマーを壊す方法や、そのような問題に対処する解決策があるかどうかについて検討する。
トレーニング中にノイズを組み込む新しいデータ駆動手法を提案する。
本稿では,ニューラルアーキテクチャを改良したトランスフォーマーと,ノイズに対処するトレーニングプロセスの2つの拡張を提案する。
論文 参考訳(メタデータ) (2020-12-31T16:55:05Z) - Modeling Homophone Noise for Robust Neural Machine Translation [23.022527815382862]
このフレームワークは、ホモホンノイズディテクタと、ホモホンエラーに対する音節対応NMTモデルで構成されています。
検出器は、テキスト文中の潜在的ホモフォン誤りを特定し、それらを音節に変換して混合シーケンスを形成し、音節認識NMTに入力する。
論文 参考訳(メタデータ) (2020-12-15T16:12:04Z) - Sentence Boundary Augmentation For Neural Machine Translation Robustness [11.290581889247983]
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
論文 参考訳(メタデータ) (2020-10-21T16:44:48Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Robust Unsupervised Neural Machine Translation with Adversarial
Denoising Training [66.39561682517741]
unsupervised neural machine translation (UNMT) は機械翻訳コミュニティに大きな関心を集めている。
UNMTの主な利点は、必要な大規模な訓練用テキストの簡単な収集にある。
本稿では,UNMT ベースのシステムのロバスト性を改善するため,まずノイズを考慮に入れた。
論文 参考訳(メタデータ) (2020-02-28T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。