論文の概要: Aligned Cross Entropy for Non-Autoregressive Machine Translation
- arxiv url: http://arxiv.org/abs/2004.01655v1
- Date: Fri, 3 Apr 2020 16:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 03:44:31.765663
- Title: Aligned Cross Entropy for Non-Autoregressive Machine Translation
- Title(参考訳): 非自己回帰機械翻訳のためのアライメントクロスエントロピー
- Authors: Marjan Ghazvininejad, Vladimir Karpukhin, Luke Zettlemoyer, Omer Levy
- Abstract要約: 非自己回帰モデルの学習における代替的損失関数としてアライメントクロスエントロピー(AXE)を提案する。
AXEに基づく条件付きマスキング言語モデル(CMLM)のトレーニングは、主要なWMTベンチマークの性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 120.15069387374717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive machine translation models significantly speed up decoding
by allowing for parallel prediction of the entire target sequence. However,
modeling word order is more challenging due to the lack of autoregressive
factors in the model. This difficultly is compounded during training with cross
entropy loss, which can highly penalize small shifts in word order. In this
paper, we propose aligned cross entropy (AXE) as an alternative loss function
for training of non-autoregressive models. AXE uses a differentiable dynamic
program to assign loss based on the best possible monotonic alignment between
target tokens and model predictions. AXE-based training of conditional masked
language models (CMLMs) substantially improves performance on major WMT
benchmarks, while setting a new state of the art for non-autoregressive models.
- Abstract(参考訳): 非自己回帰機械翻訳モデルは、ターゲットシーケンス全体の並列予測を可能にしてデコードを大幅に高速化する。
しかし,モデルに自己回帰因子が欠如しているため,単語順のモデル化は困難である。
このことは、単語順の小さなシフトを高いペナルティ化できるクロスエントロピー損失の訓練中に複雑化する。
本稿では,非自己回帰モデルの学習のための代替的損失関数としてアライメントクロスエントロピー(AXE)を提案する。
axeは微分可能な動的プログラムを使用して、ターゲットトークンとモデル予測の間の最善のモノトニックアライメントに基づいて損失を割り当てる。
axeベースの条件付きマスキング言語モデル(cmlms)のトレーニングでは、主要なwmtベンチマークのパフォーマンスが大幅に向上すると同時に、非自己回帰モデルのための新しい状態を設定する。
関連論文リスト
- Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Cross Entropy in Deep Learning of Classifiers Is Unnecessary -- ISBE
Error is All You Need [0.0]
ディープラーニング分類器では、コスト関数は通常、SoftMaxとCrossEntropy関数の組み合わせの形を取る。
この研究はISBE機能を導入し、クロスエントロピー計算の冗長性に関する論文を正当化する。
論文 参考訳(メタデータ) (2023-11-27T22:40:02Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling
with Backtracking [98.22870889029114]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練や大きなアーキテクチャ変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy [28.62712217754428]
動的アライメントMask CTCを提案する。
1) 動的プログラミングによるクロスエントロピー損失を最小限に抑えるモノトニックアライメント,(2) 動的レクリエーション, マスクをモデル予測トークンに置き換えて新しいトレーニングサンプルを作成する。
WSJ データセットを用いた実験により,AXE の損失だけでなく,修正法により Mask CTC の WER 性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-14T08:01:21Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation [28.800695682918757]
非自己回帰的翻訳(NAT)モデルに対して、注文非依存的クロスエントロピー(OaXE)と呼ばれる新たなトレーニング目標を提案する。
OaXEは、モデル予測とターゲットトークンの最適なアライメントに基づいて、クロスエントロピー損失を計算する。
主要なWMTベンチマークの実験により、OaXEは翻訳性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-09T14:15:12Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。