論文の概要: Optimizing Non-Autoregressive Transformers with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2305.13667v2
- Date: Fri, 2 Jun 2023 10:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 19:09:38.544751
- Title: Optimizing Non-Autoregressive Transformers with Contrastive Learning
- Title(参考訳): コントラスト学習による非自己回帰変換器の最適化
- Authors: Chenxin An, Jiangtao Feng, Fei Huang, Xipeng Qiu, Lingpeng Kong
- Abstract要約: 非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
- 参考スコア(独自算出の注目度): 74.46714706658517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive Transformers (NATs) reduce the inference latency of
Autoregressive Transformers (ATs) by predicting words all at once rather than
in sequential order. They have achieved remarkable progress in machine
translation as well as many other applications. However, a long-standing
challenge for NATs is the learning of multi-modality data distribution, which
is the main cause of the performance gap between NATs and ATs. In this paper,
we propose to ease the difficulty of modality learning via sampling from the
model distribution instead of the data distribution. We derive contrastive
constraints to stabilize the training process and integrate this resulting
objective with the state-of-the-art NAT architecture DA-Transformer. Our model
\method is examined on 3 different tasks, including machine translation, text
summarization, and paraphrasing with 5 benchmarks. Results show that our
approach outperforms previous non-autoregressive baselines by a significant
margin and establishes new state-of-the-art results for non-autoregressive
transformers on all the benchmarks.
- Abstract(参考訳): 非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
彼らは機械翻訳や他の多くの応用において顕著な進歩を遂げた。
しかし、NATの長年にわたる課題は、NATとATのパフォーマンスギャップの主な原因であるマルチモーダリティデータ分散の学習である。
本稿では,データ分布ではなくモデル分布からサンプリングすることで,モダリティ学習の難易度を高めることを提案する。
我々は、トレーニングプロセスを安定させ、その結果の目的を最先端のNATアーキテクチャDA-Transformerと統合するために、対照的な制約を導出する。
提案手法は,5つのベンチマークを用いた機械翻訳,テキスト要約,パラフレージングの3つのタスクで検討した。
その結果,本手法は,従来の非自己回帰的ベースラインをかなりのマージンで上回り,すべてのベンチマークで非自己回帰的トランスフォーマーに対して新たな最先端結果が得られた。
関連論文リスト
- Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Fuzzy Alignments in Directed Acyclic Graph for Non-Autoregressive
Machine Translation [18.205288788056787]
非自己回帰翻訳(NAT)は、復号遅延を低減させるが、マルチモード問題による性能劣化に悩まされる。
本稿では,グラフ内のすべての経路が参照文とファジィに一致しているという見解を保持する。
正確なアライメントは必要ありませんが、グラフと参照の間のファジィアライメントスコアを最大化するためにモデルをトレーニングします。
論文 参考訳(メタデータ) (2023-03-12T13:51:38Z) - Rephrasing the Reference for Non-Autoregressive Machine Translation [37.816198073720614]
非自己回帰型ニューラルマシン翻訳(NAT)モデルは、ソース文の複数の可能な翻訳が存在する可能性があるというマルチモーダリティの問題に悩まされる。
我々は、NAT出力に従って参照文をリフレッシュすることで、NATのためのより良いトレーニングターゲットを提供するためのリフレッサーを導入する。
我々の最良の変種は、推論の14.7倍の効率で、自動回帰変換器に匹敵する性能を実現しています。
論文 参考訳(メタデータ) (2022-11-30T10:05:03Z) - Directed Acyclic Transformer for Non-Autoregressive Machine Translation [93.31114105366461]
Directed Acyclic Transfomer (DA-Transformer) は、DAG (Directed Acyclic Graph) の隠れ状態を表す。
DA-Transformerは、平均して約3 BLEUで以前のNATよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-05-16T06:02:29Z) - Sequence-Level Training for Non-Autoregressive Neural Machine
Translation [33.17341980163439]
非自己回帰ニューラルネットワーク変換(NAT)は自己回帰機構を取り除き、大幅なデコード高速化を実現する。
本研究では,NATの出力を全体として評価し,実際の翻訳品質とよく相関するNATモデルをトレーニングするためのシーケンスレベルのトレーニング目標を提案する。
論文 参考訳(メタデータ) (2021-06-15T13:30:09Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Enriching Non-Autoregressive Transformer with Syntactic and
SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。
我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文 参考訳(メタデータ) (2021-01-22T04:12:17Z) - Fully Non-autoregressive Neural Machine Translation: Tricks of the Trade [47.97977478431973]
NAT(Fullly non-autoregressive neural Machine Translation)は、ニューラルネットワークのシングルフォワードでトークンを同時に予測する手法である。
この作業では、レイテンシのアドバンテージを維持しながら、パフォーマンスのギャップを縮めることを目標としています。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。