論文の概要: SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation
- arxiv url: http://arxiv.org/abs/2603.16924v1
- Date: Wed, 11 Mar 2026 22:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.256142
- Title: SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation
- Title(参考訳): SimulU: 音声-音声同時翻訳のための学習自由政策
- Authors: Amirbek Djanibekov, Luisa Bentivogli, Matteo Negri, Sara Papi,
- Abstract要約: リアルタイム多言語通信には同時音声音声合成(SimulS2S)が不可欠である。
現在のソリューションは、しばしばリソース集約的なトレーニング手順に依存します。
長文型SimulS2Sの最初のトレーニングフリーポリシーであるSimulUを提案する。
- 参考スコア(独自算出の注目度): 25.662798296573992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous speech-to-speech translation (SimulS2S) is essential for real-time multilingual communication, with increasing integration into meeting and streaming platforms. Despite this, SimulS2S remains underexplored in research, where current solutions often rely on resource-intensive training procedures and operate on short-form, pre-segmented utterances, failing to generalize to continuous speech. To bridge this gap, we propose SimulU, the first training-free policy for long-form SimulS2S. SimulU adopts history management and speech output selection strategies that exploit cross-attention in pre-trained end-to-end models to regulate both input history and output generation. Evaluations on MuST-C across 8 languages show that SimulU achieves a better or comparable quality-latency trade-off against strong cascaded models. By eliminating the need for ad-hoc training, SimulU offers a promising path to end-to-end SimulS2S in realistic, long-form scenarios.
- Abstract(参考訳): リアルタイム多言語通信には同時音声音声合成(SimulS2S)が不可欠である。
しかし、SimulS2Sは依然として研究が過小評価されており、現在のソリューションはリソース集約的な訓練手順に頼り、短い形態の事前セグメンテーションされた発話を運用し、連続した発話に一般化することができなかった。
このギャップを埋めるため、長文SimulS2Sの最初のトレーニングフリーポリシーであるSimulUを提案する。
SimulUは、事前訓練されたエンドツーエンドモデルにおけるクロスアテンションを利用した履歴管理と音声出力選択戦略を採用し、入力履歴と出力生成の両方を規制する。
8言語にわたる MuST-C の評価は、SimulU が強力なカスケードモデルに対してより良いあるいは同等の品質のレイテンシトレードオフを達成していることを示している。
アドホックなトレーニングを不要にすることで、SimulUは現実的で長期のシナリオにおいて、エンドツーエンドのSimulS2Sへの有望なパスを提供する。
関連論文リスト
- Direct Simultaneous Translation Activation for Large Audio-Language Models [58.03785696031301]
音声からテキストへの同時翻訳(Simul-S2TT)は,音声をテキストにリアルタイムで翻訳することを目的としている。
我々は、LALMs固有の能力を利用して同時データを得る戦略であるbf SimulSA(bf SimulSA)を導入する。
論文 参考訳(メタデータ) (2025-09-19T07:12:18Z) - SimulMEGA: MoE Routers are Advanced Policy Makers for Simultaneous Speech Translation [41.64909735021069]
SimulSTは、音声認識と機械翻訳を厳密なレイテンシ制約の下で共同で最適化することで、リアルタイムの言語間通信を可能にする。
我々は、プレフィックスベースのトレーニングとMixture-of-Expertsリファラを組み合わせた教師なしのポリシー学習フレームワークであるSimulMEGAを紹介し、効果的な読み書き判断を学習する。
論文 参考訳(メタデータ) (2025-09-01T07:34:50Z) - SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation [14.57248739077317]
本稿では,LLMをオフラインで学習するSimulS2S-LLMを提案する。
SimulS2S-LLMは、個別の音声トークンを予測し、事前訓練されたボコーダを用いて出力音声を合成することにより、同時音声音声変換(Simul-S2ST)を実現する。
論文 参考訳(メタデータ) (2025-04-22T01:05:32Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning [48.84039953531356]
StreamSpeechは、翻訳と同時ポリシーを共同で学習するSimul-S2STモデルである。
CVSSベンチマークの実験では、StreamSpeechはオフラインS2STタスクとSimul-S2STタスクの両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-05T08:24:22Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。