論文の概要: Token Drop mechanism for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2010.11018v1
- Date: Wed, 21 Oct 2020 14:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 00:00:19.660172
- Title: Token Drop mechanism for Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳のためのトークンドロップ機構
- Authors: Huaao Zhang, Shigui Qiu, Xiangyu Duan, Min Zhang
- Abstract要約: NMTモデルの一般化とオーバーフィッティングを回避するため,Token Dropを提案する。
単語ドロップアウトと同様に、ドロップトークンを単語に0をセットするのではなく、特別なトークンに置き換える。
- 参考スコア(独自算出の注目度): 12.666468105300002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural machine translation with millions of parameters is vulnerable to
unfamiliar inputs. We propose Token Drop to improve generalization and avoid
overfitting for the NMT model. Similar to word dropout, whereas we replace
dropped token with a special token instead of setting zero to words. We further
introduce two self-supervised objectives: Replaced Token Detection and Dropped
Token Prediction. Our method aims to force model generating target translation
with less information, in this way the model can learn textual representation
better. Experiments on Chinese-English and English-Romanian benchmark
demonstrate the effectiveness of our approach and our model achieves
significant improvements over a strong Transformer baseline.
- Abstract(参考訳): 数百万のパラメータを持つニューラルマシン翻訳は、未知の入力に対して脆弱である。
NMTモデルの一般化とオーバーフィッティングを回避するため,Token Dropを提案する。
単語ドロップアウトと同様に、ドロップトークンを単語にゼロを設定する代わりに特別なトークンに置き換える。
さらに,2つの自己教師型目標,代替トークン検出とドロップドトークン予測を導入する。
本手法は,より少ない情報量で対象翻訳を強制的に生成することを目的としている。
中国語と英語とローマ語のベンチマークによる実験により,本手法の有効性が実証され,本モデルは強いトランスフォーマーベースラインよりも大幅に改善した。
関連論文リスト
- A Classification-Guided Approach for Adversarial Attacks against Neural
Machine Translation [66.58025084857556]
我々は,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。
本攻撃では,翻訳が本来の翻訳と異なるクラスに属する意味保存的敵の例を作成することを目的としている。
攻撃に対するNMTモデルの堅牢性を評価するため,既存のブラックボックス単語置換攻撃の強化を提案する。
論文 参考訳(メタデータ) (2023-08-29T12:12:53Z) - Towards Opening the Black Box of Neural Machine Translation: Source and
Target Interpretations of the Transformer [1.8594711725515678]
ニューラルネットワーク翻訳(NMT)では、各トークン予測はソース文とターゲットプレフィックスに条件付けされる。
NMTにおける解釈可能性に関するこれまでの研究は、原文トークンの属性のみに焦点を当ててきた。
本稿では,完全な入力トークン属性を追跡する解釈可能性手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T20:59:14Z) - Improvement in Machine Translation with Generative Adversarial Networks [0.9612136532344103]
我々は、テキスト生成のモデルであるRelGANと、逆機械翻訳モデルであるNMT-GANからインスピレーションを得て、不器用な非流用な英語文から流用なものへの変換を学ぶモデルを実装した。
パラメータ $lambda$ を使って入力文からの逸脱量を制御します。
論文 参考訳(メタデータ) (2021-11-30T06:51:13Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - You should evaluate your language model on marginal likelihood
overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文 参考訳(メタデータ) (2021-09-06T15:37:02Z) - Confidence-Aware Scheduled Sampling for Neural Machine Translation [25.406119773503786]
ニューラルマシン翻訳のための信頼度を考慮したスケジュールサンプリングを提案する。
モデル予測の信頼性により,実時間モデル能力の定量化を行う。
提案手法は,翻訳品質と収束速度の両方において,トランスフォーマーとバニラのスケジュールサンプリングを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-22T02:49:04Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。