論文の概要: DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization
- arxiv url: http://arxiv.org/abs/2603.09180v1
- Date: Tue, 10 Mar 2026 04:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.034768
- Title: DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization
- Title(参考訳): DuplexCascade: VADのないASR-LLM-TTSパイプラインとマイクロトラック最適化による全二重音声音声対話
- Authors: Jianing Yang, Yusuke Fujita, Yui Sudo,
- Abstract要約: 私たちのキーとなるアイデアは、従来の発話の長めの旋回をチャンク・ターンの相互作用に変換することです。
ターンテイク応答のタイミングを確実に調整するために,一組の対話型特殊制御トークンを導入する。
- 参考スコア(独自算出の注目度): 17.80344425747229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken dialog systems with cascaded ASR-LLM-TTS modules retain strong LLM intelligence, but VAD segmentation often forces half-duplex turns and brittle control. On the other hand, VAD-free end-to-end model support full-duplex interaction but is hard to maintain conversational intelligence. In this paper, we present DuplexCascade, a VAD-free cascaded streaming pipeline for full-duplex speech-to-speech dialogue. Our key idea is to convert conventional utterance-wise long turns into chunk-wise micro-turn interactions, enabling rapid bidirectional exchange while preserving the strengths of a capable text LLM. To reliably coordinate turn-taking and response timing, we introduce a set of conversational special control tokens that steer the LLM's behavior under streaming constraints. On Full-DuplexBench and VoiceBench, DuplexCascade delivers state-of-the-art full-duplex turn-taking and strong conversational intelligence among open-source speech-to-speech dialogue systems.
- Abstract(参考訳): ASR-LLM-TTSモジュールをカスケードしたスポークダイアログシステムは強力なLLMインテリジェンスを保持するが、VADセグメンテーションはしばしば半二重ターンと脆い制御を強制する。
一方,VADフリーのエンド・ツー・エンド・モデルでは,全二重インタラクションがサポートされているが,会話のインテリジェンスを維持することは困難である。
本稿では,全二重音声対話のためのVADフリーカスケードストリーミングパイプラインであるDuplexCascadeについて述べる。
我々のキーとなる考え方は、従来の発話の長めの旋回をチャンクワイズなマイクロターンインタラクションに変換し、有能テキストLLMの強度を保ちながら、双方向の迅速な交換を可能にすることである。
ターンテイキングと応答タイミングを確実に調整するために,LLMの動作をストリーミング制約下で制御する,対話型特殊制御トークンのセットを導入する。
Full-DuplexBenchとVoiceBenchでは、DuplexCascadeは、オープンソースの音声音声対話システムの中で、最先端のフル二重化と強力な会話インテリジェンスを提供する。
関連論文リスト
- Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。
対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文 参考訳(メタデータ) (2026-02-10T14:31:11Z) - Chain-of-Thought Reasoning in Streaming Full-Duplex End-to-End Spoken Dialogue Systems [82.70507055599093]
本稿では,Duplex SDS のための Streaming Chain-of-Thought (CoT) フレームワークを提案する。
ブロック毎に中間的ターゲットアライメントされたユーザ書き起こしとシステム応答を作成します。
実験により,本手法は既存の二重解法よりもコヒーレントで解釈可能な応答を生成することが示された。
論文 参考訳(メタデータ) (2025-10-02T14:33:05Z) - SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation [17.56310064245171]
SALMON-N-omniは、トークン遷移バックボーンなしで動作する最初の単独のフルバイト音声LLMである。
LLMバックボーン内に新しい動的思考機構が備わっており、講演と聴取の間にモデルを学習することができる。
SALMON-N-Omniは、ターンテイキング、バックチャネルエコーキャンセル、コンテキスト依存バージェインなど、複雑な会話シナリオで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-05-17T08:13:59Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - LLM-Enhanced Dialogue Management for Full-Duplex Spoken Dialogue Systems [39.144526590642265]
音声活動検出(VAD)モジュールは、完全なSDSにおける対話マネージャ(DM)のターンテイクを効率的に管理する。
音声を短時間に処理することにより、VADはリアルタイムな意思決定を可能にし、コア対話エンジン(CDE)は応答生成のためにのみ活性化される。
論文 参考訳(メタデータ) (2025-02-19T23:15:13Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。