論文の概要: Token-level Adaptive Training for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2010.04380v1
- Date: Fri, 9 Oct 2020 05:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:23:34.470050
- Title: Token-level Adaptive Training for Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳のためのトークンレベル適応トレーニング
- Authors: Shuhao Gu, Jinchao Zhang, Fandong Meng, Yang Feng, Wanying Xie, Jie
Zhou, Dong Yu
- Abstract要約: 異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
- 参考スコア(独自算出の注目度): 84.69646428587548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There exists a token imbalance phenomenon in natural language as different
tokens appear with different frequencies, which leads to different learning
difficulties for tokens in Neural Machine Translation (NMT). The vanilla NMT
model usually adopts trivial equal-weighted objectives for target tokens with
different frequencies and tends to generate more high-frequency tokens and less
low-frequency tokens compared with the golden token distribution. However,
low-frequency tokens may carry critical semantic information that will affect
the translation quality once they are neglected. In this paper, we explored
target token-level adaptive objectives based on token frequencies to assign
appropriate weights for each target token during training. We aimed that those
meaningful but relatively low-frequency words could be assigned with larger
weights in objectives to encourage the model to pay more attention to these
tokens. Our method yields consistent improvements in translation quality on
ZH-EN, EN-RO, and EN-DE translation tasks, especially on sentences that contain
more low-frequency tokens where we can get 1.68, 1.02, and 0.52 BLEU increases
compared with baseline, respectively. Further analyses show that our method can
also improve the lexical diversity of translation.
- Abstract(参考訳): 自然言語にはトークン不均衡現象があり、異なるトークンが異なる周波数で現れるため、ニューラルネットワーク翻訳(nmt)におけるトークンの学習の難しさが異なる。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して自明な等重の目的を持ち、金のトークン分布と比較して、より高周波のトークンと低周波のトークンを生成する傾向にある。
しかし、低周波トークンは翻訳品質に影響を及ぼす重要な意味情報を持つことがある。
本稿では,トークン周波数に基づく目標トークンレベルの適応目標について検討し,目標トークン毎の適切な重み付けを行う。
我々は,これらの意味的かつ比較的低周波な単語は,モデルがこれらのトークンにもっと注意を払うよう促すために,より大きな重みを付けることができることを目標とした。
提案手法は,ZH-EN,EN-RO,EN-DEの翻訳タスク,特に1.68,1.02,0.52BLEUの低周波トークンを含む文の翻訳品質を,ベースラインと比較して向上させる。
さらに分析した結果,翻訳の語彙的多様性も向上できることがわかった。
関連論文リスト
- The Fair Language Model Paradox [19.439996884827448]
大規模言語モデル(LLM)は現実世界のアプリケーションに広くデプロイされているが、トークンレベルでのトレーニングダイナミクスについてはほとんど知られていない。
重みの減衰が増加するにつれて、低周波トークンは不均等に劣化することを示す。
これらの無視された低周波トークンは、ほとんどの言語におけるトークン分布の大部分を表わしているため、これは特に関係している。
論文 参考訳(メタデータ) (2024-10-15T18:47:12Z) - Beyond Attentive Tokens: Incorporating Token Importance and Diversity
for Efficient Vision Transformers [32.972945618608726]
視覚変換器は様々な視覚タスクにおいて大幅に改善されているが、トークン間の2次相互作用は計算効率を大幅に低下させた。
本稿では,トークン分離におけるトークンの重要性と多様性を共同で検討できる,効率的なトークン分離とマージ手法を提案する。
FLOPを40%削減した後,DeiT-Tの精度を0.1%向上させることができる。
論文 参考訳(メタデータ) (2022-11-21T09:57:11Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - A Simple Contrastive Learning Objective for Alleviating Neural Text
Degeneration [56.64703901898937]
本稿では,クロスエントロピーと異種訓練の利点を継承する,新しい対照的なトークン学習目標を提案する。
言語モデリングとオープンドメイン対話生成タスクに関する総合的な実験は、提案したコントラストトークンの目的がより繰り返しの少ないテキストを生成することを示す。
論文 参考訳(メタデータ) (2022-05-05T08:50:50Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - Frequency-Aware Contrastive Learning for Neural Machine Translation [24.336356651877388]
低周波ワード予測は、現代のニューラルマシン翻訳(NMT)システムにおいて依然として課題である。
低周波単語がよりコンパクトな埋め込み空間を形成するという観察に触発されて、表現学習の観点からこの問題に取り組む。
本稿では,各復号ステップの隠蔽状態を他のターゲット語から押し出す,周波数対応のトークンレベルのコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-29T10:10:10Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Bilingual Mutual Information Based Adaptive Training for Neural Machine
Translation [38.83163343372786]
本稿では,両言語主義の観点から,目標トークンの学習難度を計測する,新しいバイリンガル相互情報(BMI)に基づく適応目的を提案する。
WMT14英語-ドイツ語とWMT19中国語-英語による実験結果は、Transformerベースラインと従来のトークンレベルの適応トレーニングアプローチと比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2021-05-26T12:54:24Z) - Token Drop mechanism for Neural Machine Translation [12.666468105300002]
NMTモデルの一般化とオーバーフィッティングを回避するため,Token Dropを提案する。
単語ドロップアウトと同様に、ドロップトークンを単語に0をセットするのではなく、特別なトークンに置き換える。
論文 参考訳(メタデータ) (2020-10-21T14:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。