論文の概要: $τ$-Voice: Benchmarking Full-Duplex Voice Agents on Real-World Domains
- arxiv url: http://arxiv.org/abs/2603.13686v1
- Date: Sat, 14 Mar 2026 01:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.340936
- Title: $τ$-Voice: Benchmarking Full-Duplex Voice Agents on Real-World Domains
- Title(参考訳): $τ$-Voice: 実世界のドメインでフル二重音声エージェントのベンチマーク
- Authors: Soham Ray, Keshav Dhandhania, Victor Barres, Karthik Narasimhan,
- Abstract要約: $$-voiceは、現実の複雑なタスクで音声を評価するためのベンチマークである。
$-voiceは、音声エージェントへの進捗を測定する再現可能なテストベッドを提供する。
- 参考スコア(独自算出の注目度): 19.01569475622701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full-duplex voice agents--systems that listen and speak simultaneously--are rapidly moving from research to production. However, existing evaluations address conversational dynamics and task completion in isolation. We introduce $τ$-voice, a benchmark for evaluating voice agents on grounded tasks with real-world complexity: agents must navigate complex multi-turn conversations, adhere to domain policies, and interact with the environment. The framework extends $τ^2$-bench into a novel voice agent benchmark combining verifiable completion of complex grounded tasks, full-duplex interaction, and realistic audio--enabling direct comparison between voice and text performance. A controllable and realistic voice user simulator provides diverse accents, realistic audio environments, and rich turn-taking dynamics; by decoupling simulation from wall-clock time, the user simulator can use the most capable LLM without real-time constraints. We evaluate task completion (pass@1) and voice interaction quality across 278 tasks: while GPT-5 (reasoning) achieves 85%, voice agents reach only 31--51% under clean conditions and 26--38% under realistic conditions with noise and diverse accents--retaining only 30--45% of text capability; qualitative analysis confirms 79--90% of failures stem from agent behavior, suggesting that observed failures primarily reflect agent behavior under our evaluation setup. $τ$-voice provides a reproducible testbed for measuring progress toward voice agents that are natural, conversational, and reliable.
- Abstract(参考訳): フル二重音声エージェント - 耳を傾け、同時に話すシステムは、研究から生産へと急速に移行している。
しかし、既存の評価では、会話のダイナミクスとタスク完了を個別に扱う。
エージェントは複雑なマルチターン会話をナビゲートし、ドメインポリシーに固執し、環境と対話しなければならない。
このフレームワークは$τ^2$-benchを新しい音声エージェントベンチマークに拡張し、複雑な基底タスクの検証可能な完了、完全な二重相互作用、音声とテキストのパフォーマンスの直接比較を現実的に実現している。
制御可能で現実的な音声ユーザシミュレータは、多様なアクセント、リアルなオーディオ環境、リッチなターンテイクダイナミクスを提供する。
GPT-5はクリーンな条件下では31~51%,現実的な条件下では26~38%,テキスト能力では30~45%,定性的な分析では79~9割の障害がエージェントの行動に起因していることを確認した。
$τ$-voiceは、自然で会話的で信頼性の高い音声エージェントへの進捗を測定する再現可能なテストベッドを提供する。
関連論文リスト
- Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。
対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文 参考訳(メタデータ) (2026-02-10T14:31:11Z) - Defense Against Synthetic Speech: Real-Time Detection of RVC Voice Conversion Attacks [0.0]
生成オーディオ技術は、高度にリアルな音声クローニングとリアルタイム音声変換を可能にする。
本研究では,検索音声変換を用いたAI生成音声のリアルタイム検出について検討する。
論文 参考訳(メタデータ) (2025-12-31T02:06:42Z) - AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding [73.05946667683259]
最近の大規模言語モデル(MLLM)は、強い認識を示すが、多話者、対話中心の設定に苦戦している。
本質的にエージェント的なタスクを中心に設計されたベンチマークであるAMUSEを紹介します。
我々は、報酬最適化と本質的なマルチモーダル自己評価を統合するデータ効率の高いエージェントアライメントフレームワークRAFTを提案する。
論文 参考訳(メタデータ) (2025-12-18T07:01:47Z) - VoiceAgentBench: Are Voice Assistants ready for agentic tasks? [5.639970295197759]
本稿では,現実的な音声エージェント設定におけるSpeechLMの評価ベンチマークであるVoiceAgentBenchを紹介する。
インドの文脈に根ざした5,500以上の合成音声クエリで構成されている。
ツール選択の正確性、構造的整合性、ツールの実行の正しさを測定する。
論文 参考訳(メタデータ) (2025-10-09T09:11:38Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - VoiceBench: Benchmarking LLM-Based Voice Assistants [58.84144494938931]
大規模言語モデル(LLM)に基づいて音声アシスタントを評価する最初のベンチマークであるVoiceBenchを紹介する。
VoiceBenchには、上記の3つの重要な実世界のバリエーションを含む、実話と合成音声の両方が含まれている。
大規模な実験は、現在のLLMベースの音声アシスタントモデルの限界を明らかにし、この分野における将来の研究・開発に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-22T17:15:20Z) - Voice2Action: Language Models as Agent for Efficient Real-Time
Interaction in Virtual Reality [1.160324357508053]
大規模言語モデル(LLM)は、ごく少数の例で自然言語命令に従うように訓練されている。
本稿では,アクションとエンティティ抽出による音声信号とテキストコマンドを階層的に解析するフレームワークであるVoice2Actionを提案する。
人工的な指示データを用いた都市工学VR環境における実験結果から,Voice2Actionは最適化のないアプローチよりも効率的かつ高精度に動作可能であることが示された。
論文 参考訳(メタデータ) (2023-09-29T19:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。