論文の概要: Leveraging Diverse Modeling Contexts with Collaborating Learning for
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2402.18428v1
- Date: Wed, 28 Feb 2024 15:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 14:26:32.544970
- Title: Leveraging Diverse Modeling Contexts with Collaborating Learning for
Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための協調学習による多様なモデリングコンテキストの活用
- Authors: Yusheng Liao and Yanfeng Wang and Yu Wang
- Abstract要約: 自己回帰(AR)モデルと非自己回帰(NAR)モデル(NAR)モデルはニューラルマシン翻訳(NMT)のための2種類の生成モデルである
本稿では,教師や学生の代わりにARモデルとNARモデルを協調者として扱う,新しい総合的協調学習手法であるDCMCLを提案する。
- 参考スコア(独自算出の注目度): 26.823126615724888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) and Non-autoregressive (NAR) models are two types of
generative models for Neural Machine Translation (NMT). AR models predict
tokens in a word-by-word manner and can effectively capture the distribution of
real translations. NAR models predict tokens by extracting bidirectional
contextual information which can improve the inference speed but they suffer
from performance degradation. Previous works utilized AR models to enhance NAR
models by reducing the training data's complexity or incorporating the global
information into AR models by virtue of NAR models. However, those investigated
methods only take advantage of the contextual information of a single type of
model while neglecting the diversity in the contextual information that can be
provided by different types of models. In this paper, we propose a novel
generic collaborative learning method, DCMCL, where AR and NAR models are
treated as collaborators instead of teachers and students. To hierarchically
leverage the bilateral contextual information, token-level mutual learning and
sequence-level contrastive learning are adopted between AR and NAR models.
Extensive experiments on four widely used benchmarks show that the proposed
DCMCL method can simultaneously improve both AR and NAR models with up to 1.38
and 2.98 BLEU scores respectively, and can also outperform the current
best-unified model with up to 0.97 BLEU scores for both AR and NAR decoding.
- Abstract(参考訳): 自己回帰 (AR) と非自己回帰 (NAR) モデル (NAR) はニューラルマシン翻訳 (NMT) の2種類の生成モデルである。
arモデルは単語ごとにトークンを予測し、実際の翻訳の分布を効果的に捉えることができる。
NARモデルは、推論速度を改善するが性能劣化に苦しむ双方向のコンテキスト情報を抽出することでトークンを予測する。
これまでの作業では、トレーニングデータの複雑さを減らしたり、NARモデルを利用してグローバル情報をARモデルに組み込むことで、ARモデルを活用して、NARモデルを強化していた。
しかし、これらの手法は、異なる種類のモデルによって提供できる文脈情報の多様性を無視しながら、単一のタイプのモデルの文脈情報のみを活用している。
本稿では,教師や学生の代わりにARモデルとNARモデルを協調者として扱う,新しい総合的協調学習手法であるDCMCLを提案する。
双方向の文脈情報を階層的に活用するために、トークンレベルの相互学習とシーケンスレベルのコントラスト学習がARモデルとNARモデルの間で採用されている。
広範に使用されている4つのベンチマークにおいて、提案されたDCMCL法は、それぞれ1.38点と2.98点のBLEUスコアを持つARモデルとNARモデルの両方を同時に改善でき、またARとNARデコーディングの両方に対して最大0.97点のBLEUスコアを持つ現在の最も統一されたモデルよりも優れていた。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation [15.632419297059993]
非自己回帰(NAR)言語モデルは、ニューラルネットワーク翻訳(NMT)の低レイテンシで知られている。
NARと自己回帰モデルの間には大きな復号化空間があり、目的語間の不整合を正確に捉えるのが困難である。
本稿では,編集ベースNARモデルであるLevenshtein Transformerに強化学習(RL)を適用し,自己生成データを用いたRLが編集ベースNARモデルの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-05-02T13:39:28Z) - Revisiting N-Gram Models: Their Impact in Modern Neural Networks for Handwritten Text Recognition [4.059708117119894]
本研究は,言語モデル,特にn-gramモデルが,手書き認識の分野における最先端のディープラーニングアーキテクチャの性能に引き続き寄与するかどうかを論じる。
我々は、明示的なn-gram言語モデルを統合することなく、2つの著名なニューラルネットワークアーキテクチャ、PyLaiaとDANを評価した。
その結果,文字やサブワードの n-gram モデルの導入は,すべてのデータセット上での ATR モデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-30T07:37:48Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Non-Autoregressive Machine Translation: It's Not as Fast as it Seems [84.47091735503979]
NARモデルに関する文献にみられる評価手法の欠陥を指摘する。
我々はNARモデルと他の広く使われている効率向上手法を比較した。
我々は,今後の作業において,より現実的で広範なNARモデルの評価を求める。
論文 参考訳(メタデータ) (2022-05-04T09:30:17Z) - Diformer: Directional Transformer for Neural Machine Translation [13.867255817435705]
自己回帰(AR)モデルと非自己回帰(NAR)モデルは、パフォーマンスとレイテンシにおいてそれぞれ優位である。
本稿では,ARとNARを3世代に融合した方向変換器(Diformer)を提案する。
4つのWMTベンチマークの実験では、ダイフォーマーは現在の統一モデリング作業より優れており、ARとNARデコーディングの両方で1.5 BLEUポイント以上である。
論文 参考訳(メタデータ) (2021-12-22T02:35:29Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - A Study of Non-autoregressive Model for Sequence Generation [147.89525760170923]
非自己回帰(NAR)モデルは、シーケンスのすべてのトークンを並列に生成する。
本稿では,ARモデルとNARモデルのギャップを埋めるために,知識蒸留とソースターゲットアライメントを提案する。
論文 参考訳(メタデータ) (2020-04-22T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。