論文の概要: Phrase-level Adversarial Example Generation for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2201.02009v1
- Date: Thu, 6 Jan 2022 11:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 14:54:21.404802
- Title: Phrase-level Adversarial Example Generation for Neural Machine
Translation
- Title(参考訳): ニューラルマシン翻訳のための句レベルの逆例生成
- Authors: Juncheng Wan, Jian Yang, Shuming Ma, Dongdong Zhang, Weinan Zhang,
Yong Yu, Furu Wei
- Abstract要約: 本稿では,句レベルの逆例生成(PAEG)手法を提案し,モデルの堅牢性を高める。
我々は,LDC中英語,IWSLT14ドイツ語-英語,WMT14英語-ドイツ語タスクの3つのベンチマークで検証を行った。
- 参考スコア(独自算出の注目度): 75.01476479100569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While end-to-end neural machine translation (NMT) has achieved impressive
progress, noisy input usually leads models to become fragile and unstable.
Generating adversarial examples as the augmented data is proved to be useful to
alleviate this problem. Existing methods for adversarial example generation
(AEG) are word-level or character-level. In this paper, we propose a
phrase-level adversarial example generation (PAEG) method to enhance the
robustness of the model. Our method leverages a gradient-based strategy to
substitute phrases of vulnerable positions in the source input. We verify our
method on three benchmarks, including LDC Chinese-English, IWSLT14
German-English, and WMT14 English-German tasks. Experimental results
demonstrate that our approach significantly improves performance compared to
previous methods.
- Abstract(参考訳): エンドツーエンドのニューラルネットワーク翻訳(NMT)は目覚ましい進歩を遂げているが、ノイズの多い入力は通常、モデルが脆弱で不安定になる。
拡張データとして逆例を生成することはこの問題を軽減するのに有用であることが証明された。
既存の敵例生成法(AEG)は、単語レベルまたは文字レベルである。
本稿では,モデルの堅牢性を高めるために,句レベル逆例生成(PAEG)手法を提案する。
本手法は,ソース入力における脆弱な位置のフレーズを代用するために,勾配に基づく戦略を用いる。
我々は,LDC中英語,IWSLT14ドイツ語-英語,WMT14英語-ドイツ語タスクの3つのベンチマークで検証を行った。
実験の結果,従来の手法に比べて性能が大幅に向上した。
関連論文リスト
- Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Sample Efficient Approaches for Idiomaticity Detection [6.481818246474555]
本研究は, 慣用性検出の効率的な手法を探索する。
特に,いくつかの分類法であるPET(Pattern Exploit Training)と,文脈埋め込みの効率的な方法であるBERTRAM(BERTRAM)の影響について検討した。
実験の結果,PETは英語のパフォーマンスを向上するが,ポルトガル語やガリシア語では効果が低下し,バニラmBERTと同程度の総合的な性能が得られた。
論文 参考訳(メタデータ) (2022-05-23T13:46:35Z) - Detecting Textual Adversarial Examples Based on Distributional
Characteristics of Data Representations [11.93653349589025]
逆の例は、正しく分類された入力に小さな非ランダムな摂動を加えることで構成される。
自然言語タスクにおける敵対的攻撃へのアプローチは、文字レベル、単語レベル、フレーズレベルの摂動を用いて、過去5年間にブームとなった。
我々はこのギャップを埋めるために,NLPのための2つの新しいリアクティブ手法を提案する。
適応 LID と MDRE は、IMDB データセットに対する文字レベル、単語レベル、フレーズレベルの攻撃に対して、最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-29T02:32:02Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Learning to Selectively Learn for Weakly-supervised Paraphrase
Generation [81.65399115750054]
弱監督データを用いた高品質なパラフレーズを生成するための新しい手法を提案する。
具体的には、弱制御されたパラフレーズ生成問題に以下のように取り組む。
検索に基づく擬似パラフレーズ展開により、豊富なラベル付き並列文を得る。
提案手法は,既存の教師なしアプローチよりも大幅に改善され,教師付き最先端技術と同等の性能を示す。
論文 参考訳(メタデータ) (2021-09-25T23:31:13Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。