論文の概要: LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention
- arxiv url: http://arxiv.org/abs/2002.03084v1
- Date: Sat, 8 Feb 2020 04:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:58:04.580830
- Title: LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention
- Title(参考訳): LAVA NAT:Look-Around DecodingとVocabulary Attentionを備えた非自己回帰翻訳モデル
- Authors: Xiaoya Li, Yuxian Meng, Arianna Yuan, Fei Wu, Jiwei Li
- Abstract要約: 非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
- 参考スコア(独自算出の注目度): 54.18121922040521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive translation (NAT) models generate multiple tokens in one
forward pass and is highly efficient at inference stage compared with
autoregressive translation (AT) methods. However, NAT models often suffer from
the multimodality problem, i.e., generating duplicated tokens or missing
tokens. In this paper, we propose two novel methods to address this issue, the
Look-Around (LA) strategy and the Vocabulary Attention (VA) mechanism. The
Look-Around strategy predicts the neighbor tokens in order to predict the
current token, and the Vocabulary Attention models long-term token dependencies
inside the decoder by attending the whole vocabulary for each position to
acquire knowledge of which token is about to generate. %We also propose a
dynamic bidirectional decoding approach to accelerate the inference process of
the LAVA model while preserving the high-quality of the generated output. Our
proposed model uses significantly less time during inference compared with
autoregressive models and most other NAT models. Our experiments on four
benchmarks (WMT14 En$\rightarrow$De, WMT14 De$\rightarrow$En, WMT16
Ro$\rightarrow$En and IWSLT14 De$\rightarrow$En) show that the proposed model
achieves competitive performance compared with the state-of-the-art
non-autoregressive and autoregressive models while significantly reducing the
time cost in inference phase.
- Abstract(参考訳): non-autoregressive translation (nat)モデルは1回のフォワードパスで複数のトークンを生成し、autoregressive translation (at) メソッドと比較して推論段階で非常に効率的である。
しかしながら、NATモデルは多重性の問題、すなわち重複トークンや欠落トークンの発生に悩まされることが多い。
本稿では,この問題に対処するための2つの新しい手法,ルックアラウンド (la) 戦略と語彙注意 (va) 機構を提案する。
Look-Around戦略は、現在のトークンを予測するために隣のトークンを予測し、Vocabulary Attentionはデコーダ内の長期トークン依存性を、どのトークンが生成しようとしているかを知るために、各位置の語彙全体に参加することによってモデル化する。
また,出力の高品質を維持しつつ,LAVAモデルの推論プロセスを高速化する動的双方向デコーディング手法を提案する。
提案モデルでは, 自己回帰モデルや他のNATモデルと比較して, 推論時間を大幅に短縮する。
提案する4つのベンチマーク(WMT14 En$\rightarrow$De, WMT14 De$\rightarrow$En, WMT16 Ro$\rightarrow$En, IWSLT14 De$\rightarrow$En)では,提案モデルが非自己回帰モデルや自己回帰モデルと比較して競争性能を向上し,推論フェーズの時間コストを大幅に削減することを示した。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - N-Gram Nearest Neighbor Machine Translation [101.25243884801183]
本稿では, 自己回帰翻訳(AT)モデルと非自己回帰翻訳(NAT)モデルの両方に適用可能な, モデルに依存しない新しいn$-gram近傍検索手法を提案する。
提案手法は,ATモデルおよびNATモデルおよび一般のドメイン適応翻訳タスクにおいて,トークンレベル法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-01-30T13:19:19Z) - Modeling Coverage for Non-Autoregressive Neural Machine Translation [9.173385214565451]
本稿では,トークンレベルのカバレッジ反復改良機構と文レベルのカバレッジ契約により,カバレッジ情報を直接モデル化するための新しいカバレッジNATを提案する。
WMT14 En-De および WMT16 En-Ro 翻訳タスクの実験結果から,本手法はこれらの誤りを軽減し,ベースラインシステムに対して強い改善が達成できることが示された。
論文 参考訳(メタデータ) (2021-04-24T07:33:23Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。