論文の概要: Chain-of-Thought Reasoning in Streaming Full-Duplex End-to-End Spoken Dialogue Systems
- arxiv url: http://arxiv.org/abs/2510.02066v1
- Date: Thu, 02 Oct 2025 14:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.283355
- Title: Chain-of-Thought Reasoning in Streaming Full-Duplex End-to-End Spoken Dialogue Systems
- Title(参考訳): フルダブルプレックスエンドツーエンド音声対話システムにおけるチェーン・オブ・ソート推論
- Authors: Siddhant Arora, Jinchuan Tian, Hayato Futami, Jiatong Shi, Yosuke Kashiwagi, Emiru Tsunoo, Shinji Watanabe,
- Abstract要約: 本稿では,Duplex SDS のための Streaming Chain-of-Thought (CoT) フレームワークを提案する。
ブロック毎に中間的ターゲットアライメントされたユーザ書き起こしとシステム応答を作成します。
実験により,本手法は既存の二重解法よりもコヒーレントで解釈可能な応答を生成することが示された。
- 参考スコア(独自算出の注目度): 82.70507055599093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most end-to-end (E2E) spoken dialogue systems (SDS) rely on voice activity detection (VAD) for turn-taking, but VAD fails to distinguish between pauses and turn completions. Duplex SDS models address this by predicting output continuously, including silence tokens, thus removing the need for explicit VAD. However, they often have complex dual-channel architecture and lag behind cascaded models in semantic reasoning. To overcome these challenges, we propose SCoT: a Streaming Chain-of-Thought (CoT) framework for Duplex SDS, alternating between processing fixed-duration user input and generating responses in a blockwise manner. Using frame-level alignments, we create intermediate targets-aligned user transcripts and system responses for each block. Experiments show that our approach produces more coherent and interpretable responses than existing duplex methods while supporting lower-latency and overlapping interactions compared to turn-by-turn systems.
- Abstract(参考訳): ほとんどのエンドツーエンド(E2E)音声対話システム(SDS)は、音声活動検出(VAD)をターンテイクに頼っているが、VADは停止と終了の区別に失敗した。
二重SDSモデルは、サイレントトークンを含む出力を継続的に予測することでこの問題に対処し、明示的なVADの必要性を取り除く。
しかし、それらは複雑な二重チャネルアーキテクチャを持ち、意味論的推論においてカスケードモデルに遅れることが多い。
これらの課題を克服するために、我々は、Duplex SDSのためのStreaming Chain-of-Thought (CoT)フレームワークであるSCoTを提案する。
フレームレベルアライメントを用いて、ブロック毎に中間ターゲットアライメントされたユーザ書き起こしとシステム応答を生成する。
実験により,本手法は従来手法よりもコヒーレントかつ解釈可能な応答を生成する一方で,ターン・バイ・ターンシステムよりも低レイテンシと重なり合う相互作用をサポートすることがわかった。
関連論文リスト
- FD-Bench: A Full-Duplex Benchmarking Pipeline Designed for Full Duplex Spoken Dialogue Systems [25.6510200528785]
FDシーンの既存のベンチマーク、例えばモデルパフォーマンスの評価にはFDシーンのメトリクスが欠けている。
本稿では, FDSDSのユーザ割り込み処理能力, 遅延管理能力, 新たなメトリクスを用いた挑戦シナリオにおける堅牢性の維持能力を評価する。
提案手法を,40時間以上の音声を用いたオープンソースのFDSDS(Moshi, Freeze-omni, VITA-1.5)に適用した。
論文 参考訳(メタデータ) (2025-07-25T07:51:22Z) - Improving Practical Aspects of End-to-End Multi-Talker Speech Recognition for Online and Offline Scenarios [33.271537268488316]
Serialized Output Training (SOT)は、ストリーミングおよびオフライン自動音声認識(ASR)アプリケーションの両方の実用的なニーズに対処する。
我々のアプローチは、レイテンシと精度のバランス、リアルタイムキャプションと要約要求への対応に焦点を当てている。
論文 参考訳(メタデータ) (2025-06-17T05:46:38Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - LLM-Enhanced Dialogue Management for Full-Duplex Spoken Dialogue Systems [39.144526590642265]
音声活動検出(VAD)モジュールは、完全なSDSにおける対話マネージャ(DM)のターンテイクを効率的に管理する。
音声を短時間に処理することにより、VADはリアルタイムな意思決定を可能にし、コア対話エンジン(CDE)は応答生成のためにのみ活性化される。
論文 参考訳(メタデータ) (2025-02-19T23:15:13Z) - FlexDuo: A Pluggable System for Enabling Full-Duplex Capabilities in Speech Dialogue Systems [8.43958948419218]
音声対話システムから制御を分離するフレキシブルフルプレイ制御モジュールを開発した。
会話における人間の情報フィルタリング機構に触発されて、明示的なアイドル状態を導入する。
偽の割り込み率を24.9%削減し、統合されたフルプレイ対話システムに比べて応答精度を7.6%向上させる。
論文 参考訳(メタデータ) (2025-02-19T06:51:34Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。