論文の概要: Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation
- arxiv url: http://arxiv.org/abs/2503.06594v1
- Date: Sun, 09 Mar 2025 12:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:00.919395
- Title: Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation
- Title(参考訳): デコーダのみを超える:大きな言語モデルは機械翻訳に適したエンコーダになる
- Authors: Yingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu,
- Abstract要約: 普遍的で効率的で、最適化が容易な翻訳モデルを探求する。
大規模な言語モデル(LLM)をNMTエンコーディングに適用し,NMTデコーダをそのまま残す。
我々は,機械翻訳システムの一般化度を評価するために,複数のタスクを含む新しいデータセットを構築した。
- 参考スコア(独自算出の注目度): 40.72168378706009
- License:
- Abstract: The field of neural machine translation (NMT) has changed with the advent of large language models (LLMs). Much of the recent emphasis in natural language processing (NLP) has been on modeling machine translation and many other problems using a single pre-trained Transformer decoder, while encoder-decoder architectures, which were the standard in earlier NMT models, have received relatively less attention. In this paper, we explore translation models that are universal, efficient, and easy to optimize, by marrying the world of LLMs with the world of NMT. We apply LLMs to NMT encoding and leave the NMT decoder unchanged. We also develop methods for adapting LLMs to work better with the NMT decoder. Furthermore, we construct a new dataset involving multiple tasks to assess how well the machine translation system generalizes across various tasks. Evaluations on the WMT and our datasets show that results using our method match or surpass a range of baselines in terms of translation quality, but achieve $2.4 \sim 6.5 \times$ inference speedups and a $75\%$ reduction in the memory footprint of the KV cache. It also demonstrates strong generalization across a variety of translation-related tasks.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)の分野は、大規模言語モデル(LLM)の出現とともに変化してきた。
自然言語処理(NLP)における近年の重点は、機械翻訳のモデリングや、1つの事前訓練されたトランスフォーマーデコーダを用いた他の多くの問題であるが、エンコーダ・デコーダアーキテクチャは、初期のNMTモデルでは標準であったが、比較的注目を集めていない。
本稿では,LLMの世界とNMTの世界を融合させることにより,普遍的で効率的で,最適化が容易な翻訳モデルについて検討する。
我々は、NMTエンコーディングにLLMを適用し、NMTデコーダをそのまま残す。
また,NMTデコーダにLLMを適応させる手法も開発している。
さらに,複数のタスクを含む新しいデータセットを構築し,機械翻訳システムが様々なタスクにまたがってどのように一般化するかを評価する。
WMTと我々のデータセットによる評価は、我々の手法による結果が翻訳品質の点で一致しているか、あるいはベースラインを超えるかを示すが、24ドルのsim 6.5 \times$推論スピードアップとKVキャッシュのメモリフットプリントの75\%$削減を達成していることを示している。
また、多種多様な翻訳関連タスクにまたがる強力な一般化を示す。
関連論文リスト
- Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。
我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Language Models are Good Translators [63.528370845657896]
単一言語モデル(LM4MT)は,強力なエンコーダデコーダNMTモデルと同等の性能が得られることを示す。
ピボットベースおよびゼロショット変換タスクの実験により、LM4MTはエンコーダ・デコーダのNMTモデルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-06-25T13:30:29Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Zero-shot Cross-lingual Transfer of Neural Machine Translation with
Multilingual Pretrained Encoders [74.89326277221072]
多言語プリトレーニング済みエンコーダによるNMTモデルのクロスリンガル転送を改善する方法は、未検討です。
このタスクのシンプルで効果的なモデルであるSixTを提案します。
私達のモデルはCRISSおよびm2m-100より多くの英語テストセットでよりよい性能を達成します。
論文 参考訳(メタデータ) (2021-04-18T07:42:45Z) - Improving Zero-shot Neural Machine Translation on Language-specific
Encoders-Decoders [19.44855809470709]
近年,共有エンコーダデコーダを用いたユニバーサルニューラルネットワーク翻訳(NMT)は,ゼロショット翻訳において良好な性能を示した。
ユニバーサルNMTとは異なり、共同で訓練された言語固有のエンコーダ・デコーダは、非共有モジュール間で普遍的な表現を目指す。
言語固有エンコーダ・デコーダを用いたゼロショット翻訳について検討する。
論文 参考訳(メタデータ) (2021-02-12T15:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。