論文の概要: Multi-Granularity Optimization for Non-Autoregressive Translation
- arxiv url: http://arxiv.org/abs/2210.11017v1
- Date: Thu, 20 Oct 2022 04:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:34:06.300756
- Title: Multi-Granularity Optimization for Non-Autoregressive Translation
- Title(参考訳): 非自己回帰翻訳のための多粒度最適化
- Authors: Yafu Li, Leyang Cui, Yongjing Yin and Yue Zhang
- Abstract要約: 非自己回帰機械翻訳(NAT)は、単純独立性の仮定により、深刻な性能劣化を被る。
本研究では,様々な粒度の翻訳セグメントのモデル挙動を収集し,バックプロパゲーションのためのフィードバックを統合するNATの多粒度最適化を提案する。
4つのWMTベンチマーク実験により,提案手法は,クロスエントロピー損失でトレーニングしたベースラインモデルよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 20.85478899258943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite low latency, non-autoregressive machine translation (NAT) suffers
severe performance deterioration due to the naive independence assumption. This
assumption is further strengthened by cross-entropy loss, which encourages a
strict match between the hypothesis and the reference token by token. To
alleviate this issue, we propose multi-granularity optimization for NAT, which
collects model behaviors on translation segments of various granularities and
integrates feedback for backpropagation. Experiments on four WMT benchmarks
show that the proposed method significantly outperforms the baseline models
trained with cross-entropy loss, and achieves the best performance on WMT'16
En-Ro and highly competitive results on WMT'14 En-De for fully
non-autoregressive translation.
- Abstract(参考訳): 低レイテンシにもかかわらず、非自己回帰型機械翻訳(NAT)は、単純な独立仮定のため、大幅な性能劣化を被る。
この仮定はさらに、仮説とトークンによる参照トークンとの厳密な一致を促すクロスエントロピー損失によって強化される。
この問題を軽減するために,様々な粒度の翻訳セグメントのモデル挙動を収集し,バックプロパゲーションのためのフィードバックを統合するNATの多粒度最適化を提案する。
4つのWMTベンチマーク実験により、提案手法はクロスエントロピー損失で訓練されたベースラインモデルよりも大幅に優れており、WMT'16 En-RoとWMT'14 En-Deの完全非自己回帰翻訳において高い競争力を発揮することが示された。
関連論文リスト
- DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Fuzzy Alignments in Directed Acyclic Graph for Non-Autoregressive
Machine Translation [18.205288788056787]
非自己回帰翻訳(NAT)は、復号遅延を低減させるが、マルチモード問題による性能劣化に悩まされる。
本稿では,グラフ内のすべての経路が参照文とファジィに一致しているという見解を保持する。
正確なアライメントは必要ありませんが、グラフと参照の間のファジィアライメントスコアを最大化するためにモデルをトレーニングします。
論文 参考訳(メタデータ) (2023-03-12T13:51:38Z) - Candidate Soups: Fusing Candidate Results Improves Translation Quality
for Non-Autoregressive Translation [15.332496335303189]
非自己回帰翻訳(NAT)モデルは、自己回帰翻訳(AT)モデルよりもはるかに高速な推論速度を達成する。
既存のNATメソッドはNATモデルの性能改善にのみフォーカスするが、完全には利用しない。
そこで我々は,高品質な翻訳を実現するための,シンプルだが効果的な手法"Candidate Soups"を提案する。
論文 参考訳(メタデータ) (2023-01-27T02:39:42Z) - Modeling Coverage for Non-Autoregressive Neural Machine Translation [9.173385214565451]
本稿では,トークンレベルのカバレッジ反復改良機構と文レベルのカバレッジ契約により,カバレッジ情報を直接モデル化するための新しいカバレッジNATを提案する。
WMT14 En-De および WMT16 En-Ro 翻訳タスクの実験結果から,本手法はこれらの誤りを軽減し,ベースラインシステムに対して強い改善が達成できることが示された。
論文 参考訳(メタデータ) (2021-04-24T07:33:23Z) - Fully Non-autoregressive Neural Machine Translation: Tricks of the Trade [47.97977478431973]
NAT(Fullly non-autoregressive neural Machine Translation)は、ニューラルネットワークのシングルフォワードでトークンを同時に予測する手法である。
この作業では、レイテンシのアドバンテージを維持しながら、パフォーマンスのギャップを縮めることを目標としています。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。