論文の概要: Parallel Attention Forcing for Machine Translation
- arxiv url: http://arxiv.org/abs/2211.03237v1
- Date: Sun, 6 Nov 2022 23:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 16:55:53.478299
- Title: Parallel Attention Forcing for Machine Translation
- Title(参考訳): 機械翻訳のための並列注意強制
- Authors: Qingyun Dou and Mark Gales
- Abstract要約: 注意に基づく自己回帰モデルは、様々なシーケンス・ツー・シーケンスタスクにおいて最先端のパフォーマンスを達成した。
標準的なトレーニングアプローチである教師強制は、参照バックヒストリーでモデルをガイドする。
本稿では,これらの課題に対処するための2つの注意力拡張について紹介する。
- 参考スコア(独自算出の注目度): 1.4213973379473654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based autoregressive models have achieved state-of-the-art
performance in various sequence-to-sequence tasks, including Text-To-Speech
(TTS) and Neural Machine Translation (NMT), but can be difficult to train. The
standard training approach, teacher forcing, guides a model with the reference
back-history. During inference, the generated back-history must be used. This
mismatch limits the evaluation performance. Attention forcing has been
introduced to address the mismatch, guiding the model with the generated
back-history and reference attention. While successful in tasks with continuous
outputs like TTS, attention forcing faces additional challenges in tasks with
discrete outputs like NMT. This paper introduces the two extensions of
attention forcing to tackle these challenges. (1) Scheduled attention forcing
automatically turns attention forcing on and off, which is essential for tasks
with discrete outputs. (2) Parallel attention forcing makes training parallel,
and is applicable to Transformer-based models. The experiments show that the
proposed approaches improve the performance of models based on RNNs and
Transformers.
- Abstract(参考訳): 注意に基づく自己回帰モデルは、text-to-speech(tts)やneural machine translation(nmt)など、さまざまなシーケンス-シーケンスタスクで最先端のパフォーマンスを達成しているが、トレーニングは困難である。
標準的なトレーニングアプローチである教師強制は、モデルの参照バックヒストリーを導く。
推論では、生成されたバックヒストリーを使用する必要がある。
このミスマッチは評価性能を制限します。
ミスマッチに対処するために注意を喚起し、モデルに生成されたバックヒストリーと参照注意を導く。
TTSのような連続的なアウトプットを持つタスクでは成功したが、NMTのような個別のアウトプットを持つタスクでは注意の強制がさらなる課題に直面している。
本稿では,これらの課題に取り組むための注意力の2つの拡張について述べる。
1) スケジュールされた注意強制は、離散的なアウトプットを持つタスクに不可欠な、注意をオン/オフする。
2) 並列注意強制はトレーニングを並列にし, Transformer ベースのモデルに適用できる。
実験の結果,提案手法は RNN と Transformer に基づくモデルの性能向上を図っている。
関連論文リスト
- Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。
本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:01:13Z) - Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech [9.982121768809854]
本稿では,ARトランスフォーマーを用いたエンコーダ・デコーダによる音声合成システムの改良について述べる。
提案手法では,アライメント機構を用いて,相対的な位置情報を用いたクロスアテンション操作を行う。
これらの改良を取り入れたVery Attentive Tacotronと呼ばれるシステムは、ベースラインT5ベースのTSシステムの自然性と表現性にマッチする。
論文 参考訳(メタデータ) (2024-10-29T16:17:01Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Attention Forcing for Machine Translation [40.86121789549994]
本稿では,ニューラルマシン翻訳(NMT)の注意を喚起する。
生成された出力履歴と参照アテンションでモデルをガイドし、スケジュールや分類器なしでトレーニング推論を減らすことができる。
実験では、注意を強制することで、全体的な翻訳品質と翻訳の多様性が向上します。
論文 参考訳(メタデータ) (2021-04-02T22:33:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。