論文の概要: From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench
- arxiv url: http://arxiv.org/abs/2604.15037v2
- Date: Sat, 18 Apr 2026 03:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 13:51:31.18937
- Title: From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench
- Title(参考訳): 反応から反応へ:ProVoice-Benchによる音声エージェントの活性評価
- Authors: Ke Xu, Yuhao Wang, Yu Wang,
- Abstract要約: 本稿では,プロアクティブ音声エージェントに特化して設計された最初の評価フレームワークであるProVoice-Benchを紹介する。
多段階データ合成パイプラインを利用することで、厳密なテストのために1,182の高品質なサンプルをキュレートする。
現状のマルチモーダル LLM の評価では,特に過剰なトラッゲリングと推論能力に関して,大きな性能差が示される。
- 参考スコア(独自算出の注目度): 11.985605415045734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in LLM agents are gradually shifting from reactive, text-based paradigms toward proactive, multimodal interaction. However, existing benchmarks primarily focus on reactive responses, overlooking the complexities of proactive intervention and monitoring. To bridge this gap, we introduce ProVoice-Bench, the first evaluation framework specifically designed for proactive voice agents, featuring four novel tasks. By leveraging a multi-stage data synthesis pipeline, we curate 1,182 high-quality samples for rigorous testing. Our evaluation of state-of-the-art Multimodal LLMs reveals a significant performance gap, particularly regarding over-triggering and reasoning capabilities. These findings highlight the limitations of current models and offer a roadmap for developing more natural, context-aware proactive agents.
- Abstract(参考訳): LLMエージェントの最近の進歩は、反応性のあるテキストベースのパラダイムから、プロアクティブでマルチモーダルな相互作用へと徐々にシフトしている。
しかし、既存のベンチマークは主に、積極的な介入と監視の複雑さを見越して、反応に重点を置いている。
このギャップを埋めるために,プロヴォイス・ベンチ(ProVoice-Bench)を紹介した。
多段階データ合成パイプラインを利用することで、厳密なテストのために1,182の高品質なサンプルをキュレートする。
現状のマルチモーダル LLM の評価では,特に過剰なトラッゲリングと推論能力に関して,大きな性能差が示される。
これらの知見は、現在のモデルの限界を強調し、より自然でコンテキスト対応のプロアクティブエージェントを開発するためのロードマップを提供する。
関連論文リスト
- ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models [51.06179253173491]
ProactiveBenchは、さまざまなタスクにまたがってプロアクティブ性をテストするベンチマークです。
本研究は, (i) MLLMs on ProactiveBench, (ii) MLLMs on (i) MLLMs they are generally lack proactiveness; (ii) proactiveness not correlation with model capacity; (iii) "hinting" at proactiveness is yields only marginal gains。
論文 参考訳(メタデータ) (2026-03-19T20:58:03Z) - ProAct: A Benchmark and Multimodal Framework for Structure-Aware Proactive Response [20.913342340957904]
ProAct-75は、さまざまなドメインにわたるプロアクティブエージェントのトレーニングと評価のために設計されたベンチマークである。
我々のデータセットは、明示的なタスクグラフに富んだ91,581のステップレベルのアノテーションを備えている。
MLLM(Multimodal Large Language Model)を用いた参照ベースラインであるProAct-Helperを提案する。
論文 参考訳(メタデータ) (2026-02-03T11:52:19Z) - AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding [73.05946667683259]
最近の大規模言語モデル(MLLM)は、強い認識を示すが、多話者、対話中心の設定に苦戦している。
本質的にエージェント的なタスクを中心に設計されたベンチマークであるAMUSEを紹介します。
我々は、報酬最適化と本質的なマルチモーダル自己評価を統合するデータ効率の高いエージェントアライメントフレームワークRAFTを提案する。
論文 参考訳(メタデータ) (2025-12-18T07:01:47Z) - ProactiveEval: A Unified Evaluation Framework for Proactive Dialogue Agents [29.03683444493195]
大規模言語モデル(LLM)のプロアクティブ対話機能を評価する統合フレームワークであるProactiveEvalを提案する。
このフレームワークは,プロアクティブな対話をターゲット計画と対話指導に分解し,様々な領域で評価指標を確立する。
我々は,DeepSeek-R1とClaude-3.7-Sonnetが,目標計画および対話指導タスクに優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-08-28T16:26:44Z) - ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models [41.35497807436858]
本稿では,プロアクティブインタラクションに関わるシステムの能力を評価するための,初の総合的なベンチマークであるProactiveVideoQAを紹介する。
また,モデル応答の時間的ダイナミクスを考慮した最初の指標であるPAUCを提案する。
これらの結果から,PAUCは,アクティブなインタラクションシナリオにおけるユーザエクスペリエンスをより忠実に評価できることがわかった。
論文 参考訳(メタデータ) (2025-07-12T15:11:50Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。