論文の概要: Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech
- arxiv url: http://arxiv.org/abs/2604.21045v1
- Date: Wed, 22 Apr 2026 19:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.158057
- Title: Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech
- Title(参考訳): 非有界音声の同時翻訳のための階層的ポリシー最適化
- Authors: Siqi Ouyang, Shuoyang Ding, Oleksii Hrinchuk, Vitaly Lavrukhin, Brian Yan, Boris Ginsburg, Lei Li,
- Abstract要約: 同時音声翻訳(SST)は、部分的な音声入力を受けながら翻訳を生成する。
近年の進歩により、大規模言語モデル(LLM)はSSTの品質を大幅に向上するが、高い計算オーバーヘッドのコストがかかる。
本稿では,不完全なSFTデータに基づいて列車後モデルを訓練する階層的ポリシー最適化(HPO)手法を提案する。
英語と中国語/ドイツ語/日本語の実験では、+7 COMETスコアと+1.25 MetricXスコアが1.5秒で改善された。
- 参考スコア(独自算出の注目度): 50.45710815530982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous speech translation (SST) generates translations while receiving partial speech input. Recent advances show that large language models (LLMs) can substantially improve SST quality, but at the cost of high computational overhead. To reduce this cost, prior work reformulates SST as a multi-turn dialogue task, enabling full reuse of the LLM's key-value (KV) cache and eliminating redundant feature recomputation. However, this approach relies on supervised fine-tuning (SFT) data in dialogue form, for which few human annotations exist, and existing synthesis methods cannot guarantee data quality. In this work, we propose a Hierarchical Policy Optimization (HPO) approach that post-train models trained on imperfect SFT data. We introduce a hierarchical reward that balances translation quality and latency objectives. Experiments on English to Chinese/German/Japanese demonstrate improvements of over +7 COMET score and +1.25 MetricX score at a latency of 1.5 seconds. Comprehensive ablation studies further validate the effectiveness of different quality rewards, hierarchical reward formulations, and segmentation strategies. Code can be found here https://github.com/owaski/HPO
- Abstract(参考訳): 同時音声翻訳(SST)は、部分的な音声入力を受けながら翻訳を生成する。
近年の進歩により、大規模言語モデル(LLM)はSSTの品質を大幅に向上するが、高い計算オーバーヘッドを犠牲にすることができる。
このコストを削減するために、先行作業はマルチターン対話タスクとしてSSTを再構成し、LLMのキー値(KV)キャッシュを完全に再利用し、冗長な特徴再計算をなくす。
しかし、この手法は、人間のアノテーションがほとんど存在せず、既存の合成手法ではデータ品質を保証できない対話形式の教師付き微調整(SFT)データに依存している。
本研究では,不完全なSFTデータに基づいて訓練されたポストトレインモデルに対する階層的ポリシー最適化(HPO)手法を提案する。
翻訳品質と遅延目標のバランスをとる階層的な報酬を導入する。
英語と中国語/ドイツ語/日本語の実験では、+7 COMETスコアと+1.25 MetricXスコアが1.5秒で改善された。
包括的アブレーション研究は、異なる品質報酬、階層的な報酬の定式化、セグメンテーション戦略の有効性をさらに検証する。
コードは https://github.com/owaski/HPO で見ることができる。
関連論文リスト
- Simultaneous Speech-to-Speech Translation Without Aligned Data [52.467808474293605]
同時音声翻訳では、ソース音声を対象言語にリアルタイムで翻訳する必要がある。
単語レベルのアライメントを完全に不要にするヒビキゼロを提案する。
Hibiki-Zeroは5つのX-英語タスクの翻訳精度、レイテンシ、音声転送、自然性において最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-11T17:41:01Z) - Get away with less: Need of source side data curation to build parallel corpus for low resource Machine Translation [3.3393607383304253]
我々は、ソース文をスクリーニングして効率的なパラレルテキストを形成するフレームワークを開発する。
既存のデータセットと合成データセットの両方から複雑な文を学習することにより,翻訳品質を著しく向上させる。
このアプローチは、トレーニングデータ要求を減らすことでMTシステムのトレーニングコストを削減するだけでなく、データ拡張におけるLALITAの有用性を示す。
論文 参考訳(メタデータ) (2026-01-13T15:05:19Z) - InfiniSST: Simultaneous Translation of Unbounded Speech with Large Language Model [10.40867923457809]
InfiniSSTは、マルチターン対話タスクとしてSSTを定式化する新しいアプローチである。
我々は,MST-Cから翻訳トラジェクトリとロバストセグメントを構築し,トレーニング中に多遅延拡張を行った。
MuST-C En-Es、En-De、En-Zhの実験では、InfiniSSTは計算に意識したレイテンシを0.5秒から1秒に短縮することを示した。
論文 参考訳(メタデータ) (2025-03-04T19:51:29Z) - Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
合成QEデータの分散シフトを緩和する新しいフレームワークであるDCSQEを紹介する。
DCSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。
実験により、DCSQEは教師なし設定と教師なし設定の両方でSOTAベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-27T10:11:53Z) - FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。