論文の概要: AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning
- arxiv url: http://arxiv.org/abs/2510.16156v1
- Date: Fri, 17 Oct 2025 19:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.873479
- Title: AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning
- Title(参考訳): AsyncVoice Agent: LLM計画と推論のためのリアルタイム説明
- Authors: Yueqian Lin, Zhengmian Hu, Jayakumar Subramanian, Qinsi Wang, Nikos Vlassis, Hai "Helen" Li, Yiran Chen,
- Abstract要約: 非同期アーキテクチャが会話音声からストリーミングバックエンドを分離するシステムであるAsyncVoice Agentを提案する。
この設計により、ナレーションと推論が並列に実行され、ユーザーはモデルの推論プロセスを中断し、クエリし、管理することができる。
客観的ベンチマークでは、このアプローチはモノリシックなベースラインに比べて600倍以上のレイテンシを削減している。
- 参考スコア(独自算出の注目度): 27.522862635055077
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Effective human-AI collaboration on complex reasoning tasks requires that users understand and interact with the model's process, not just receive an output. However, the monolithic text from methods like Chain-of-Thought (CoT) prevents this, as current interfaces lack real-time verbalization and robust user barge-in. We present AsyncVoice Agent, a system whose asynchronous architecture decouples a streaming LLM backend from a conversational voice frontend. This design allows narration and inference to run in parallel, empowering users to interrupt, query, and steer the model's reasoning process at any time. Objective benchmarks show this approach reduces interaction latency by more than 600x compared to monolithic baselines while ensuring high fidelity and competitive task accuracy. By enabling a two-way dialogue with a model's thought process, AsyncVoice Agent offers a new paradigm for building more effective, steerable, and trustworthy human-AI systems for high-stakes tasks.
- Abstract(参考訳): 複雑な推論タスクにおける効果的な人間とAIのコラボレーションは、ユーザーがアウトプットを受け取るだけでなく、モデルのプロセスを理解し、操作する必要がある。
しかし、Chain-of-Thought(CoT)のようなメソッドからのモノリシックなテキストは、現在のインターフェースにはリアルタイムの動詞化と堅牢なユーザバージインが欠けているため、これを防止している。
非同期アーキテクチャが会話音声フロントエンドからストリーミングLLMバックエンドを分離するシステムであるAsyncVoice Agentを提案する。
この設計により、ナレーションと推論が並列に実行され、ユーザーはいつでもモデルの推論プロセスを中断し、クエリし、管理することができる。
客観的ベンチマークにより、このアプローチはモノリシックなベースラインと比較して600倍以上のレイテンシを削減し、高い忠実性と競争力のあるタスク精度を確保します。
モデル思考プロセスと双方向の対話を可能にすることにより、AsyncVoice Agentは、より効率的で、ステアブルで、信頼性の高い、高度なタスクのための人間-AIシステムを構築するための新しいパラダイムを提供する。
関連論文リスト
- Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。
本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。
提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T14:18:20Z) - Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - DroidSpeak: KV Cache Sharing for Cross-LLM Communication and Multi-LLM Serving [14.700431530275132]
DroidSpeakは分散ノード間でKVキャッシュの再利用を可能にする最初の分散LLM推論システムである。
DroidSpeakは最大4倍のスループット向上と約3.1倍高速プリフィル(タイム・ツー・ファーストトークン)を実現していることを示す。
多様なデータセットとモデルペアの実験では、DroidSpeakは最大4倍のスループット向上と約3.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-11-05T05:41:41Z) - Asynchronous Tool Usage for Real-Time Agents [61.3041983544042]
並列処理とリアルタイムツール利用が可能な非同期AIエージェントを導入する。
私たちの重要な貢献は、エージェントの実行とプロンプトのためのイベント駆動有限状態マシンアーキテクチャです。
この研究は、流体とマルチタスクの相互作用が可能なAIエージェントを作成するための概念的なフレームワークと実践的なツールの両方を提示している。
論文 参考訳(メタデータ) (2024-10-28T23:57:19Z) - Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T06:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。