論文の概要: Attention Forcing for Machine Translation
- arxiv url: http://arxiv.org/abs/2104.01264v1
- Date: Fri, 2 Apr 2021 22:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:56:19.174848
- Title: Attention Forcing for Machine Translation
- Title(参考訳): 機械翻訳への注意
- Authors: Qingyun Dou, Yiting Lu, Potsawee Manakul, Xixin Wu, Mark J. F. Gales
- Abstract要約: 本稿では,ニューラルマシン翻訳(NMT)の注意を喚起する。
生成された出力履歴と参照アテンションでモデルをガイドし、スケジュールや分類器なしでトレーニング推論を減らすことができる。
実験では、注意を強制することで、全体的な翻訳品質と翻訳の多様性が向上します。
- 参考スコア(独自算出の注目度): 40.86121789549994
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Auto-regressive sequence-to-sequence models with attention mechanisms have
achieved state-of-the-art performance in various tasks including Text-To-Speech
(TTS) and Neural Machine Translation (NMT). The standard training approach,
teacher forcing, guides a model with the reference output history. At inference
stage, the generated output history must be used. This mismatch can impact
performance. However, it is highly challenging to train the model using the
generated output. Several approaches have been proposed to address this
problem, normally by selectively using the generated output history. To make
training stable, these approaches often require a heuristic schedule or an
auxiliary classifier. This paper introduces attention forcing for NMT. This
approach guides the model with the generated output history and reference
attention, and can reduce the training-inference mismatch without a schedule or
a classifier. Attention forcing has been successful in TTS, but its application
to NMT is more challenging, due to the discrete and multi-modal nature of the
output space. To tackle this problem, this paper adds a selection scheme to
vanilla attention forcing, which automatically selects a suitable training
approach for each pair of training data. Experiments show that attention
forcing can improve the overall translation quality and the diversity of the
translations.
- Abstract(参考訳): 注意機構を持つ自動回帰シーケンス・ツー・シーケンスモデルでは,テキスト音声(TTS)やニューラル機械翻訳(NMT)など,さまざまなタスクにおいて最先端のパフォーマンスを実現している。
標準的なトレーニングアプローチである教師強制は、モデルの参照出力履歴を導く。
推論段階では、生成された出力履歴を使用する必要がある。
このミスマッチはパフォーマンスに影響を与えます。
しかし、生成された出力を使ってモデルをトレーニングするのは非常に難しい。
この問題を解決するために、通常は生成された出力履歴を選択的に使用することで、いくつかのアプローチが提案されている。
訓練を安定させるためには、しばしばヒューリスティックなスケジュールや補助的な分類器を必要とする。
本稿は,NMTの注意を喚起する。
このアプローチは、生成した出力履歴と参照アテンションでモデルをガイドし、スケジュールや分類器なしでトレーニングと推論のミスマッチを減らすことができる。
TTSにおいて注意強制は成功したが、出力空間の離散性と多重モードの性質のため、NTTへの適用はより困難である。
そこで本稿では,各トレーニングデータに対して適切なトレーニングアプローチを自動的に選択する,バニラ注意強制のための選択方式を提案する。
実験により、注意力は翻訳の全体的な品質と多様性を改善することが示されている。
関連論文リスト
- Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech [9.982121768809854]
本稿では,ARトランスフォーマーを用いたエンコーダ・デコーダによる音声合成システムの改良について述べる。
提案手法では,アライメント機構を用いて,相対的な位置情報を用いたクロスアテンション操作を行う。
これらの改良を取り入れたVery Attentive Tacotronと呼ばれるシステムは、ベースラインT5ベースのTSシステムの自然性と表現性にマッチする。
論文 参考訳(メタデータ) (2024-10-29T16:17:01Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Dynamic Scheduled Sampling with Imitation Loss for Neural Text
Generation [10.306522595622651]
トレーニング時間精度のみに基づいてスケジュールを維持するDySI(Dynamic Scheduled Sampling with Imitation Loss)を導入する。
DySIは標準的な機械翻訳ベンチマークの顕著な改善を実現し、他のテキスト生成モデルの堅牢性を大幅に改善した。
論文 参考訳(メタデータ) (2023-01-31T16:41:06Z) - Parallel Attention Forcing for Machine Translation [1.4213973379473654]
注意に基づく自己回帰モデルは、様々なシーケンス・ツー・シーケンスタスクにおいて最先端のパフォーマンスを達成した。
標準的なトレーニングアプローチである教師強制は、参照バックヒストリーでモデルをガイドする。
本稿では,これらの課題に対処するための2つの注意力拡張について紹介する。
論文 参考訳(メタデータ) (2022-11-06T23:29:07Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Source and Target Bidirectional Knowledge Distillation for End-to-end
Speech Translation [88.78138830698173]
外部テキストベースNMTモデルからのシーケンスレベルの知識蒸留(SeqKD)に注目した。
E2E-STモデルを訓練し、パラフレーズ転写を1つのデコーダで補助タスクとして予測する。
論文 参考訳(メタデータ) (2021-04-13T19:00:51Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。