論文の概要: Simultaneous Machine Translation with Large Language Models
- arxiv url: http://arxiv.org/abs/2309.06706v1
- Date: Wed, 13 Sep 2023 04:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 15:31:40.646375
- Title: Simultaneous Machine Translation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた同時機械翻訳
- Authors: Minghan Wang, Jinming Zhao, Thuy-Trang Vu, Fatemeh Shiri, Ehsan
Shareghi, Gholamreza Haffari
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクを解く能力を示した。
我々は,LSMが追加の訓練を必要とせずにSimulMTに参加することができる簡易かつ効果的な混合政策を導入する。
Llama2-7B-chatでMUST-Cデータセットから9つの言語ペアを用いて行った実験は、LLMが専用のSimulMTモデルに匹敵する翻訳品質とレイテンシを実現できることを示した。
- 参考スコア(独自算出の注目度): 51.470478122113356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLM) have demonstrated their abilities to solve
various natural language processing tasks through dialogue-based interactions.
For instance, research indicates that LLMs can achieve competitive performance
in offline machine translation tasks for high-resource languages. However,
applying LLMs to simultaneous machine translation (SimulMT) poses many
challenges, including issues related to the training-inference mismatch arising
from different decoding patterns. In this paper, we explore the feasibility of
utilizing LLMs for SimulMT. Building upon conventional approaches, we introduce
a simple yet effective mixture policy that enables LLMs to engage in SimulMT
without requiring additional training. Furthermore, after Supervised
Fine-Tuning (SFT) on a mixture of full and prefix sentences, the model exhibits
significant performance improvements. Our experiments, conducted with
Llama2-7B-chat on nine language pairs from the MUST-C dataset, demonstrate that
LLM can achieve translation quality and latency comparable to dedicated SimulMT
models.
- Abstract(参考訳): 大規模言語モデル(LLM)は対話に基づく対話を通して様々な自然言語処理タスクを解く能力を示した。
例えば、研究によると、llmは高リソース言語のオフライン機械翻訳タスクにおいて競争力のある性能を達成できる。
しかし、LLMを同時機械翻訳(SimulMT)に適用すると、異なる復号パターンから生じるトレーニング-推論ミスマッチに関する問題など、多くの課題が生じる。
本稿では,SimulMT における LLM の利用可能性について検討する。
従来のアプローチを基礎として,LLMがSimulMTに参加するために,追加のトレーニングを必要とせず,簡便かつ効果的な混合ポリシーを導入する。
さらに,フル文とプレフィックス文を混合したSFT(Supervised Fine-Tuning)では,性能が大幅に向上した。
Llama2-7B-chatを用いてMUST-Cデータセットから9つの言語ペアを用いて実験を行い、LLMが専用のSimulMTモデルに匹敵する翻訳品質とレイテンシを達成できることを実証した。
関連論文リスト
- TransLLaMa: LLM-based Simultaneous Translation System [18.27477980076409]
Decoderのみの大規模言語モデル(LLM)は,特別な"待機"トークンを生成することで,入力セグメンテーションを直接制御できることを示す。
これにより、別個の政策の必要性が排除され、LLMは英語とドイツ語と英語とロシア語のSiMTタスクを実行できるようになる。
また, GPT-4 などのクローズドソースモデルの評価を行い, 事前訓練をせずに SiMT タスクの実行を奨励する結果を示した。
論文 参考訳(メタデータ) (2024-02-07T07:39:27Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Simul-LLM: A Framework for Exploring High-Quality Simultaneous
Translation with Large Language Models [5.228973028299169]
数十億のパラメータを持ち、大量のデータに事前訓練された大規模言語モデル(LLM)は、さまざまな下流自然言語処理タスクにおいて、最先端の性能に近いかそれ以上の性能を持つようになった。
Simul-LLMは、SimulMTにフォーカスしたLLMのためのオープンソースのファインチューニングおよび評価パイプライン開発フレームワークである。
論文 参考訳(メタデータ) (2023-12-07T20:42:05Z) - Improving Machine Translation with Large Language Models: A Preliminary
Study with Cooperative Decoding [78.66926087162672]
まず,MT 指向 LLM と MT 指向 LLM の長所と短所を総合的に解析し,その長所と短所について検討する。
これらの知見に基づいて,NMT システムを事前翻訳モデルとして,MT 指向 LLM を補足解として扱う Cooperative Decoding (CoDec) を提案する。
WMT22テストセットと新たに収集されたテストセットWebCrawlの結果は、CoDecの有効性と効率を実証している。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - A Mechanism for Solving Relational Tasks in Transformer Language Models [36.29933464955979]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,そのサイズと複雑さにもかかわらず,一対一のリレーショナルタスクを解くための単純な計算機構を利用する場合があることを示す。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。