論文の概要: Confidence-Aware Scheduled Sampling for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2107.10427v1
- Date: Thu, 22 Jul 2021 02:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 23:21:38.713738
- Title: Confidence-Aware Scheduled Sampling for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための信頼度対応型スケジュールサンプリング
- Authors: Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu and Jie Zhou
- Abstract要約: ニューラルマシン翻訳のための信頼度を考慮したスケジュールサンプリングを提案する。
モデル予測の信頼性により,実時間モデル能力の定量化を行う。
提案手法は,翻訳品質と収束速度の両方において,トランスフォーマーとバニラのスケジュールサンプリングを著しく上回っている。
- 参考スコア(独自算出の注目度): 25.406119773503786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scheduled sampling is an effective method to alleviate the exposure bias
problem of neural machine translation. It simulates the inference scene by
randomly replacing ground-truth target input tokens with predicted ones during
training. Despite its success, its critical schedule strategies are merely
based on training steps, ignoring the real-time model competence, which limits
its potential performance and convergence speed. To address this issue, we
propose confidence-aware scheduled sampling. Specifically, we quantify
real-time model competence by the confidence of model predictions, based on
which we design fine-grained schedule strategies. In this way, the model is
exactly exposed to predicted tokens for high-confidence positions and still
ground-truth tokens for low-confidence positions. Moreover, we observe vanilla
scheduled sampling suffers from degenerating into the original teacher forcing
mode since most predicted tokens are the same as ground-truth tokens.
Therefore, under the above confidence-aware strategy, we further expose more
noisy tokens (e.g., wordy and incorrect word order) instead of predicted ones
for high-confidence token positions. We evaluate our approach on the
Transformer and conduct experiments on large-scale WMT 2014 English-German, WMT
2014 English-French, and WMT 2019 Chinese-English. Results show that our
approach significantly outperforms the Transformer and vanilla scheduled
sampling on both translation quality and convergence speed.
- Abstract(参考訳): スケジューリングサンプリングは、ニューラルネットワーク翻訳の露光バイアス問題を緩和する有効な方法である。
トレーニング中に、接地対象の入力トークンを予測トークンにランダムに置き換えることで、推論シーンをシミュレートする。
その成功にもかかわらず、重要なスケジュール戦略は単にトレーニングステップに基づいており、その潜在的な性能と収束速度を制限するリアルタイムモデルの能力を無視している。
この問題に対処するため,信頼性を考慮したスケジュールサンプリングを提案する。
具体的には、きめ細かいスケジュール戦略をデザインしたモデル予測の信頼度によって、リアルタイムモデル能力の定量化を行う。
このようにして、モデルが正確に高信頼位置の予測トークンと低信頼位置の地上トークンに晒される。
さらに,多くの予測トークンが接地トラストークンと同一であるため,バニラのスケジュールサンプリング障害が元の教師強制モードに退避することを確認する。
したがって、上記の信頼度認識戦略の下では、高信頼度トークン位置に対する予測トークンではなく、よりノイズの多いトークン(例えば、単語順や不正確な単語順)を露出する。
我々は、トランスフォーマーのアプローチを評価し、大規模なwmt 2014英語ドイツ語、wmt 2014英語フランス語、wmt 2019中国語英語の実験を行った。
その結果,本手法は翻訳品質と収束速度の両方でトランスフォーマーとバニラスケジュールサンプリングを著しく上回ることがわかった。
関連論文リスト
- Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation
of the Reversal Curse [73.65112477688353]
近年の研究では「逆の呪い」として知られる大きな言語モデルにおける現象が強調されている。
我々は、逆の呪いは特定のモデルの訓練目的の結果であると主張している。
本稿では、逆の呪いを軽減するために、新しい訓練手法BI Casual Language Modeling Optimization (BICO)を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - SMURF-THP: Score Matching-based UnceRtainty quantiFication for
Transformer Hawkes Process [76.98721879039559]
SMURF-THPは,変圧器ホークス過程を学習し,予測の不確かさを定量化するスコアベース手法である。
具体的には、SMURF-THPは、スコアマッチング目標に基づいて、イベントの到着時刻のスコア関数を学習する。
我々は,イベントタイプ予測と到着時刻の不確実性定量化の両方において,広範な実験を行う。
論文 参考訳(メタデータ) (2023-10-25T03:33:45Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Dynamic Scheduled Sampling with Imitation Loss for Neural Text
Generation [10.306522595622651]
トレーニング時間精度のみに基づいてスケジュールを維持するDySI(Dynamic Scheduled Sampling with Imitation Loss)を導入する。
DySIは標準的な機械翻訳ベンチマークの顕著な改善を実現し、他のテキスト生成モデルの堅牢性を大幅に改善した。
論文 参考訳(メタデータ) (2023-01-31T16:41:06Z) - Learning Confidence for Transformer-based Neural Machine Translation [38.679505127679846]
本稿では,ニューラルネットワーク翻訳(NMT)モデルのトレーニングと協調して,教師なしの信頼度推定学習を提案する。
我々は、NMTモデルが正しい予測を行うために必要なヒントの数として、信頼性を説明し、より多くのヒントは信頼性の低いことを示す。
学習された信頼度推定は文・単語レベルの品質評価タスクにおいて高い精度が得られることを示す。
論文 参考訳(メタデータ) (2022-03-22T01:51:58Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Token Drop mechanism for Neural Machine Translation [12.666468105300002]
NMTモデルの一般化とオーバーフィッティングを回避するため,Token Dropを提案する。
単語ドロップアウトと同様に、ドロップトークンを単語に0をセットするのではなく、特別なトークンに置き換える。
論文 参考訳(メタデータ) (2020-10-21T14:02:27Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。