論文の概要: Simultaneous Machine Translation with Large Language Models
- arxiv url: http://arxiv.org/abs/2309.06706v1
- Date: Wed, 13 Sep 2023 04:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 15:31:40.646375
- Title: Simultaneous Machine Translation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた同時機械翻訳
- Authors: Minghan Wang, Jinming Zhao, Thuy-Trang Vu, Fatemeh Shiri, Ehsan
Shareghi, Gholamreza Haffari
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクを解く能力を示した。
我々は,LSMが追加の訓練を必要とせずにSimulMTに参加することができる簡易かつ効果的な混合政策を導入する。
Llama2-7B-chatでMUST-Cデータセットから9つの言語ペアを用いて行った実験は、LLMが専用のSimulMTモデルに匹敵する翻訳品質とレイテンシを実現できることを示した。
- 参考スコア(独自算出の注目度): 51.470478122113356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLM) have demonstrated their abilities to solve
various natural language processing tasks through dialogue-based interactions.
For instance, research indicates that LLMs can achieve competitive performance
in offline machine translation tasks for high-resource languages. However,
applying LLMs to simultaneous machine translation (SimulMT) poses many
challenges, including issues related to the training-inference mismatch arising
from different decoding patterns. In this paper, we explore the feasibility of
utilizing LLMs for SimulMT. Building upon conventional approaches, we introduce
a simple yet effective mixture policy that enables LLMs to engage in SimulMT
without requiring additional training. Furthermore, after Supervised
Fine-Tuning (SFT) on a mixture of full and prefix sentences, the model exhibits
significant performance improvements. Our experiments, conducted with
Llama2-7B-chat on nine language pairs from the MUST-C dataset, demonstrate that
LLM can achieve translation quality and latency comparable to dedicated SimulMT
models.
- Abstract(参考訳): 大規模言語モデル(LLM)は対話に基づく対話を通して様々な自然言語処理タスクを解く能力を示した。
例えば、研究によると、llmは高リソース言語のオフライン機械翻訳タスクにおいて競争力のある性能を達成できる。
しかし、LLMを同時機械翻訳(SimulMT)に適用すると、異なる復号パターンから生じるトレーニング-推論ミスマッチに関する問題など、多くの課題が生じる。
本稿では,SimulMT における LLM の利用可能性について検討する。
従来のアプローチを基礎として,LLMがSimulMTに参加するために,追加のトレーニングを必要とせず,簡便かつ効果的な混合ポリシーを導入する。
さらに,フル文とプレフィックス文を混合したSFT(Supervised Fine-Tuning)では,性能が大幅に向上した。
Llama2-7B-chatを用いてMUST-Cデータセットから9つの言語ペアを用いて実験を行い、LLMが専用のSimulMTモデルに匹敵する翻訳品質とレイテンシを達成できることを実証した。
関連論文リスト
- Can General-Purpose Large Language Models Generalize to English-Thai Machine Translation ? [2.1969983462375318]
大規模言語モデル(LLM)は、一般的なタスクではうまく機能するが、低リソースおよび低計算環境での一般化に苦慮する。
本研究は,英語-タイ語機械翻訳とコードスイッチングデータセット上で,様々なLLMと特殊翻訳モデルをテストすることにより,この制限を検証した。
論文 参考訳(メタデータ) (2024-10-22T16:26:03Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Self-Distillation for Model Stacking Unlocks Cross-Lingual NLU in 200+ Languages [2.53740603524637]
機械翻訳モデル(MT)は優れた多言語表現を生成し、低リソース言語でも強力な翻訳性能が得られる。
本研究は,MTエンコーダをサンプル効率のよい自己蒸留法により,言語バックボーンに直接組み込むことにより,両世界のベストを得られる。
MT-LLMは、MTエンコーダから固有の多言語表現アライメントを保持しており、低リソース言語は英語中心のLLMに埋め込まれた豊富な知識を取り入れることができる。
論文 参考訳(メタデータ) (2024-06-18T16:00:20Z) - Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression [40.4998607679863]
大規模言語モデル(LLM)は、ドメイン固有のデータに対して、事前訓練後または監督された微調整後(SFT)において、破滅的な忘れ込みに悩まされることが多い。
本稿では,TG-SFTに着目し,SFTデータを合成的に生成する。
論文 参考訳(メタデータ) (2024-06-17T09:17:40Z) - Simul-LLM: A Framework for Exploring High-Quality Simultaneous Translation with Large Language Models [4.873927154453253]
数十億のパラメータを持ち、大量のデータに事前訓練された大規模言語モデル(LLM)は、さまざまな下流自然言語処理タスクにおいて、最先端の性能に近いかそれ以上の性能を持つようになった。
Simul-LLMは、SimulMTにフォーカスしたLLMのためのオープンソースのファインチューニングおよび評価パイプライン開発フレームワークである。
論文 参考訳(メタデータ) (2023-12-07T20:42:05Z) - Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。
我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。