Fugu-MT 論文翻訳(概要): Discourse-Aware Dual-Track Streaming Response for Low-Latency Spoken Dialogue Systems

論文の概要: Discourse-Aware Dual-Track Streaming Response for Low-Latency Spoken Dialogue Systems

arxiv url: http://arxiv.org/abs/2602.23266v1
Date: Thu, 26 Feb 2026 17:39:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.818324
Title: Discourse-Aware Dual-Track Streaming Response for Low-Latency Spoken Dialogue Systems
Title（参考訳）: 低レイテンシ音声対話システムのための談話対応デュアルトラックストリーミング応答
Authors: Siyuan Liu, Jiahui Xu, Feng Jiang, Kuang Wang, Zefeng Zhao, Chu-Ren Huang, Jinghang Gu, Changqing Yin, Haizhou Li,
Abstract要約: 本稿では,聴取時思考と話し時思考を可能にする低レイテンシアーキテクチャを提案する。 2つの音声対話ベンチマークの実験により、DDTSRは応答遅延を19%-51%削減することを示した。
参考スコア（独自算出の注目度）: 31.911085541071028
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Achieving human-like responsiveness is a critical yet challenging goal for cascaded spoken dialogue systems. Conventional ASR-LLM-TTS pipelines follow a strictly sequential paradigm, requiring complete transcription and full reasoning before speech synthesis can begin, which results in high response latency. We propose the Discourse-Aware Dual-Track Streaming Response (DDTSR) framework, a low-latency architecture that enables listen-while-thinking and speak-while-thinking. DDTSR is built upon three key mechanisms: (1) connective-guided small-large model synergy, where an auxiliary small model generates minimal-committal discourse connectives while a large model performs knowledge-intensive reasoning in parallel; (2) streaming-based cross-modal collaboration, which dynamically overlaps ASR, LLM inference, and TTS to advance the earliest speakable moment; and (3) curriculum-learning-based discourse continuity enhancement, which maintains coherence and logical consistency between early responses and subsequent reasoning outputs. Experiments on two spoken dialogue benchmarks demonstrate that DDTSR reduces response latency by 19%-51% while preserving discourse quality. Further analysis shows that DDTSR functions as a plug-and-play module compatible with diverse LLM backbones, and remains robust across varying utterance lengths, indicating strong practicality and scalability for real-time spoken interaction.
Abstract（参考訳）: 人間のような応答性を達成することは、カスケードされた音声対話システムにとって、決定的かつ挑戦的な目標である。従来のASR-LLM-TTSパイプラインは、音声合成が始まる前に完全な書き起こしと完全な推論を必要とする、厳格なシーケンシャルなパラダイムに従っている。本稿では,低レイテンシアーキテクチャであるDDTSR(Discourse-Aware Dual-Track Streaming Response)フレームワークを提案する。 DDTSR は,(1) 補助的小モデルが最小限のコミット的談話接続を生成するとともに,大規模モデルが並列に知識集約的推論を行うような接続型小モデルシナジー,(2) ASR, LLM 推論, TTS を動的に重畳して最初期の発話モーダルモーダル・コラボレーション,(3) 教育的学習に基づく談話継続性向上,早期応答とその後の推論出力との一貫性と論理的整合性を維持すること,の3つの主要なメカニズムに基づいて構築されている。 2つの音声対話ベンチマーク実験により、DDTSRは談話品質を維持しながら応答遅延を19%-51%削減することを示した。さらに分析したところ、DDTSRは様々なLLMバックボーンと互換性のあるプラグイン・アンド・プレイモジュールとして機能し、様々な発話長にわたって頑健であり、リアルタイム音声対話のための強力な実用性とスケーラビリティを示している。

関連論文リスト

U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation [48.6868174403074]
我々は,高知能マルチモーダル対話のための最初の統一システムであるU-Mindを紹介する。リアルタイム生成と共同モデル言語、音声、モーション、ビデオ合成をサポートする。 U-Mindは様々なマルチモーダルインタラクションタスクにおいて最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-02-27T07:07:02Z)
Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文参考訳（メタデータ） (2026-02-10T14:31:11Z)
Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback [82.70507055599093]
本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDSの品質向上のための選好学習に関する最初の体系的研究を行う。実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰学習は意味的品質と音声の自然性において一貫した利得が得られることが示された。
論文参考訳（メタデータ） (2026-01-27T00:55:14Z)
TagSpeech: End-to-End Multi-Speaker ASR and Diarization with Fine-Grained Temporal Grounding [15.908533215017059]
本稿では,テンポラルアンカーグラウンドを用いた統合フレームワークTagSpeechについて述べる。本フレームワークは,(1)SOT(Serialized Output Training)を用いて微調整されたセマンティックストリームと話者ストリームを分離してターンテイクダイナミクスを学習し,(2)セマンティック理解と話者追跡の同期信号として機能するインターリーブ時間アンカー機構である。
論文参考訳（メタデータ） (2026-01-11T12:40:07Z)
Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文参考訳（メタデータ） (2025-10-02T10:28:11Z)
FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文参考訳（メタデータ） (2025-09-26T11:57:42Z)
Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文参考訳（メタデータ） (2025-03-06T18:59:16Z)
Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM [3.6950912517562435]
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
論文参考訳（メタデータ） (2024-09-25T20:59:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。