論文の概要: DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2510.12195v1
- Date: Tue, 14 Oct 2025 06:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.211509
- Title: DPO-Tuned Large Language Models for Segmentation in Simultaneous Speech Translation
- Title(参考訳): 同時音声翻訳における分割のためのDPO付き大言語モデル
- Authors: Zeyu Yang, Satoshi Nakamura,
- Abstract要約: 同時音声翻訳は、翻訳品質とレイテンシのバランスをとるために正確なセグメンテーションを必要とする。
直接選好最適化(DPO)で訓練された大規模言語モデルに基づくセグメンテーションフレームワークを提案する。
提案手法は,好みのアライメントを活用することで,リアルタイム翻訳の要求を満たす自然なセグメンテーションポイントをLLMが予測することを可能にする。
- 参考スコア(独自算出の注目度): 6.611635315225665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous speech translation requires accurate segmentation to balance translation quality and latency. Recent studies such as SHAS have introduced pretrained segmentation models, achieving stronger performance than heuristic rules. However, segmentation models such as SHAS, though pretrained and more robust than heuristic methods, are still constrained by supervised learning objectives and do not incorporate human preference alignment, which is crucial for natural real-time interpretation. In this work, we propose a segmentation framework based on large language models (LLMs) trained with Direct Preference Optimization (DPO). By leveraging preference alignment, our method enables LLMs to predict natural segmentation points that better meet the demands of real-time translation. We evaluate the system on the ACL 60/60 corpus across three language pairs (English-Japanese, Chinese, German), using SeamlessM4T v2 as the translation backbone. Experimental results show that our DPO-tuned LLM achieves higher segmentation accuracy than SHAS and yields consistent improvements in translation quality (BLEU, COMET) as well as latency (Average Lagging). Furthermore, our system benefits from IWSLT baselines for direct comparison. These findings highlight the potential of preference-tuned LLMs to surpass existing pretrained segmentation models and advance adaptive, human-aligned simultaneous interpretation.
- Abstract(参考訳): 同時音声翻訳は、翻訳品質とレイテンシのバランスをとるために正確なセグメンテーションを必要とする。
SHASのような最近の研究は事前訓練されたセグメンテーションモデルを導入し、ヒューリスティックなルールよりも強い性能を実現している。
しかし、SHASのようなセグメンテーションモデルは、ヒューリスティックな手法よりも事前訓練され、より堅牢であるが、それでも教師付き学習の目的によって制約されており、人間の嗜好のアライメントは組み込まれていない。
本研究では,DPO(Direct Preference Optimization)を用いて学習した大規模言語モデル(LLM)に基づくセグメンテーションフレームワークを提案する。
提案手法は,好みのアライメントを活用することで,リアルタイム翻訳の要求を満たす自然なセグメンテーションポイントをLLMが予測することを可能にする。
翻訳バックボーンとしてSeamlessM4T v2を用いて,ACL 60/60コーパスを3つの言語対(英語,中国語,ドイツ語)で評価した。
実験結果から,DPO調整LLMはSHASよりも高いセグメンテーション精度を実現し,翻訳品質(BLEU,COMET)と遅延(平均ラグ)を一貫した改善が得られた。
さらに,本システムは直接比較においてIWSLTベースラインの恩恵を受ける。
これらの知見は、既存の訓練済みセグメンテーションモデルを超え、適応的で人間と協調した同時解釈を前進させる、嗜好調整型LLMの可能性を強調した。
関連論文リスト
- Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - A Preference-driven Paradigm for Enhanced Translation with Large Language Models [33.51585908894444]
大規模言語モデル(LLM)は,少数の並列データのみを用いて,優れた翻訳性能を実現する。
SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。
この高原を克服するために、Planet-Luceモデルに基づく嗜好に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:52:47Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。