論文の概要: SeqPO-SiMT: Sequential Policy Optimization for Simultaneous Machine Translation
- arxiv url: http://arxiv.org/abs/2505.20622v1
- Date: Tue, 27 May 2025 01:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.341032
- Title: SeqPO-SiMT: Sequential Policy Optimization for Simultaneous Machine Translation
- Title(参考訳): SeqPO-SiMT:同時機械翻訳のためのシーケンスポリシー最適化
- Authors: Ting Xu, Zhichao Huang, Jiankai Sun, Shanbo Cheng, Wai Lam,
- Abstract要約: SeqPO-SiMTは同時機械翻訳(SiMT)のための新しいポリシー最適化フレームワークである
レイテンシを低減しつつ、翻訳品質を向上させるために、カスタマイズされた報酬が組み込まれている。
我々は、En to Zh および Zh to En SiMT タスクのために、さまざまな領域から6つのデータセットを実験する。
- 参考スコア(独自算出の注目度): 51.79856805974686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Sequential Policy Optimization for Simultaneous Machine Translation (SeqPO-SiMT), a new policy optimization framework that defines the simultaneous machine translation (SiMT) task as a sequential decision making problem, incorporating a tailored reward to enhance translation quality while reducing latency. In contrast to popular Reinforcement Learning from Human Feedback (RLHF) methods, such as PPO and DPO, which are typically applied in single-step tasks, SeqPO-SiMT effectively tackles the multi-step SiMT task. This intuitive framework allows the SiMT LLMs to simulate and refine the SiMT process using a tailored reward. We conduct experiments on six datasets from diverse domains for En to Zh and Zh to En SiMT tasks, demonstrating that SeqPO-SiMT consistently achieves significantly higher translation quality with lower latency. In particular, SeqPO-SiMT outperforms the supervised fine-tuning (SFT) model by 1.13 points in COMET, while reducing the Average Lagging by 6.17 in the NEWSTEST2021 En to Zh dataset. While SiMT operates with far less context than offline translation, the SiMT results of SeqPO-SiMT on 7B LLM surprisingly rival the offline translation of high-performing LLMs, including Qwen-2.5-7B-Instruct and LLaMA-3-8B-Instruct.
- Abstract(参考訳): 我々は、同時機械翻訳(SiMT)タスクを逐次決定問題として定義する新しいポリシー最適化フレームワークSeqPO-SiMTを提案する。
PPOやDPOのような一般的なRLHF(Reinforcement Learning from Human Feedback)とは異なり、SeqPO-SiMTは多段階のSiMTタスクに効果的に取り組む。
この直感的なフレームワークにより、SiMT LLMは、カスタマイズされた報酬を使用してSiMTプロセスをシミュレートし、洗練することができる。
我々は、En to Zh と Zh の6つの領域から En SiMT タスクへの6つのデータセットの実験を行い、SeqPO-SiMT が低レイテンシで大幅に高い翻訳品質を達成することを示した。
特にSeqPO-SiMTは、COMETにおいて教師付き微調整(SFT)モデルよりも1.13ポイント優れており、NEWSTEST2021 En to Zhデータセットでは平均ラギングを6.17ポイント削減している。
SiMTはオフライン翻訳よりもはるかに少ない文脈で動作するが、7B LLM上のSeqPO-SiMTの結果は、Qwen-2.5-7B-InstructやLLaMA-3-8B-Instructといった高性能LLMのオフライン翻訳と驚くほど競合する。
関連論文リスト
- LLMs Can Achieve High-quality Simultaneous Machine Translation as Efficiently as Offline [16.124385656402744]
大言語モデル(LLM)は、単純なプロンプトで「[src lang]から[tgt lang]に次の文を変換する」という単純なプロンプトでも、オフライン機械翻訳において優れた性能を発揮する。
我々は、同時機械翻訳(SiMT)のための教師付き微調整データの構築を含む新しいパラダイムを提案する。
提案手法は,様々なSiMTベンチマークにおける最先端性能を実現し,オフライン翻訳の本来の能力を維持する。
論文 参考訳(メタデータ) (2025-04-13T13:45:53Z) - SiLLM: Large Language Models for Simultaneous Machine Translation [41.303764786790616]
同時機械翻訳(SiMT)は、原文を読みながら翻訳を生成する。
既存のSiMT手法では、ポリシーを同時に決定し、翻訳を生成するために単一のモデルを採用している。
我々は2つのサブタスクを別々のエージェントに委譲するSiLLMを提案する。
論文 参考訳(メタデータ) (2024-02-20T14:23:34Z) - TransLLaMa: LLM-based Simultaneous Translation System [18.27477980076409]
Decoderのみの大規模言語モデル(LLM)は,特別な"待機"トークンを生成することで,入力セグメンテーションを直接制御できることを示す。
これにより、別個の政策の必要性が排除され、LLMは英語とドイツ語と英語とロシア語のSiMTタスクを実行できるようになる。
また, GPT-4 などのクローズドソースモデルの評価を行い, 事前訓練をせずに SiMT タスクの実行を奨励する結果を示した。
論文 参考訳(メタデータ) (2024-02-07T07:39:27Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。
我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。