論文の概要: LTS-VoiceAgent: A Listen-Think-Speak Framework for Efficient Streaming Voice Interaction via Semantic Triggering and Incremental Reasoning
- arxiv url: http://arxiv.org/abs/2601.19952v1
- Date: Mon, 26 Jan 2026 15:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.603186
- Title: LTS-VoiceAgent: A Listen-Think-Speak Framework for Efficient Streaming Voice Interaction via Semantic Triggering and Incremental Reasoning
- Title(参考訳): LTS-VoiceAgent:セマンティック・トリガリングとインクリメンタル・推論による効率的なストリーミング音声対話のためのリスニング・シンク・スピーカー・フレームワーク
- Authors: Wenhao Zou, Yuwei Miao, Zhanyu Ma, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He, Jingwen Xu,
- Abstract要約: LTS-VoiceAgent は Listen-Think-Speak フレームワークである。
意味のある接頭辞を検出するDynamic Semantic Triggerと、背景のThinkerと前景のスピーカーをコーディネートするDual-Role Stream Orchestratorを備えている。
- 参考スコア(独自算出の注目度): 27.13598270494417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time voice agents face a dilemma: end-to-end models often lack deep reasoning, while cascaded pipelines incur high latency by executing ASR, LLM reasoning, and TTS strictly in sequence, unlike human conversation where listeners often start thinking before the speaker finishes. Since cascaded architectures remain the dominant choice for complex tasks, existing cascaded streaming strategies attempt to reduce this latency via mechanical segmentation (e.g., fixed chunks, VAD-based splitting) or speculative generation, but they frequently either break semantic units or waste computation on predictions that must be rolled back. To address these challenges, we propose LTS-VoiceAgent, a Listen-Think-Speak framework that explicitly separates when to think from how to reason incrementally. It features a Dynamic Semantic Trigger to detect meaningful prefixes, and a Dual-Role Stream Orchestrator that coordinates a background Thinker (for state maintenance) and a foreground Speaker (for speculative solving). This parallel design enables "thinking while speaking" without blocking responses. We also introduce a Pause-and-Repair benchmark containing natural disfluencies to stress-test streaming robustness. Experiments across VERA, Spoken-MQA, BigBenchAudio, and our benchmark show that LTS-VoiceAgent achieves a stronger accuracy-latency-efficiency trade-off than serial cascaded baselines and existing streaming strategies.
- Abstract(参考訳): リアルタイム音声エージェントはジレンマに直面している: エンドツーエンドモデルは深い推論を欠くことが多いが、カスケードパイプラインはASR、LSM推論、TSを厳格に実行することで高い遅延を発生させる。
カスケードアーキテクチャが複雑なタスクの主要な選択肢であることから、既存のカスケードストリーミング戦略は、機械的セグメンテーション(例えば、固定チャンク、VADベースの分割)や投機的生成を通じて、このレイテンシを低減しようとするが、ロールバックしなければならない予測に対して、しばしばセマンティックユニットやムダ計算を壊す。
これらの課題に対処するために、我々は、段階的に推論する方法からいつ考えるかを明確に分離するリステン・シンク・スピーカー・フレームワークであるLTS-VoiceAgentを提案する。
意味のある接頭辞を検出するDynamic Semantic Triggerと、バックグラウンドのThinker(状態維持のための)とフォアグラウンドのスピーカー(投機的解決のための)を協調するDual-Role Stream Orchestratorを備えている。
この並列設計により、応答をブロックすることなく"話しながら考える"ことができる。
また,ストレス-テストによるストリーミングの堅牢性に対する自然な影響を含むPause-and-Repairベンチマークも導入した。
VERA, Spoken-MQA, BigBenchAudio, および我々のベンチマークによる実験により, LTS-VoiceAgentは, シリアルカスケードベースラインや既存のストリーミング戦略よりも高い精度-レイテンシ-効率トレードオフを実現することが示された。
関連論文リスト
- TagSpeech: End-to-End Multi-Speaker ASR and Diarization with Fine-Grained Temporal Grounding [15.908533215017059]
本稿では,テンポラルアンカーグラウンドを用いた統合フレームワークTagSpeechについて述べる。
本フレームワークは,(1)SOT(Serialized Output Training)を用いて微調整されたセマンティックストリームと話者ストリームを分離してターンテイクダイナミクスを学習し,(2)セマンティック理解と話者追跡の同期信号として機能するインターリーブ時間アンカー機構である。
論文 参考訳(メタデータ) (2026-01-11T12:40:07Z) - AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning [27.522862635055077]
非同期アーキテクチャが会話音声からストリーミングバックエンドを分離するシステムであるAsyncVoice Agentを提案する。
この設計により、ナレーションと推論が並列に実行され、ユーザーはモデルの推論プロセスを中断し、クエリし、管理することができる。
客観的ベンチマークでは、このアプローチはモノリシックなベースラインに比べて600倍以上のレイテンシを削減している。
論文 参考訳(メタデータ) (2025-10-17T19:00:08Z) - Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。
本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。
提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T14:18:20Z) - Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models [131.90117151306993]
音声言語モデル(SLM)は、音声入力を受信し、音声応答を生成するように設計されている。
現在のSLMは、応答する前に、内部的に無意味な思考プロセスを実行する能力が欠けている。
未知の推論チャンクと音声応答チャンクを交互に生成する新しい手法であるStitchを提案する。
論文 参考訳(メタデータ) (2025-07-21T08:30:03Z) - StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文 参考訳(メタデータ) (2025-06-14T16:53:39Z) - Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM [3.6950912517562435]
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。
このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
論文 参考訳(メタデータ) (2024-09-25T20:59:12Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。