論文の概要: EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents
- arxiv url: http://arxiv.org/abs/2605.27820v1
- Date: Wed, 27 May 2026 01:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.66968
- Title: EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents
- Title(参考訳): EgoBench: ツール使用エージェントのためのインタラクティブなエゴセントリックなマルチモーダルベンチマーク
- Authors: Yunqi Liu, Tong Niu, Zitong Wang, Zhenlong Dai, Yuqi Qing, Weiqiang Wang, Jian Liu,
- Abstract要約: ツール使用エージェントのための対話型マルチモーダルベンチマークであるEgoBenchを紹介する。
我々は3段階の相乗的パイプラインを実装し、各タスクは視覚知覚とツール強化マルチホップ推論の併用を強制的に行うように設計されている。
また,エージェントのインタラクション能力を評価するために,EgoBench内のマルチエージェントシミュレーションユーザを開発した。
- 参考スコア(独自算出の注目度): 17.727481701114556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI agents increasingly operate in open, real-world environments, they require a deep synergy of multimodal perception, tool invocation with multi-hop reasoning, and dynamic interaction with users. However, existing benchmarks fail to jointly evaluate these capabilities due to challenges in designing strictly coupled multi-capability tasks, simulating natural and task-constrained user feedback, and ensuring objective evaluation of dynamic interaction. To bridge this gap, we introduce EgoBench, the first interactive multimodal benchmark for tool-using agents. EgoBench comprises 1,045 egocentric-video-grounded tasks covering four daily scenarios, along with a user-agent-tool interactive environment for evaluation. We implement a three-stage synergistic pipeline through which each task is designed to enforce the joint application of visual perception and tool-augmented multi-hop reasoning. We additionally develop a multi-agent simulated user within EgoBench to evaluate agents' interaction capabilities, which generates high-fidelity, task-aligned responses to agents. Furthermore, we establish a deterministic joint validation framework that guarantees objective assessment through process-based and result-based equivalence. Benchmarking eight SOTA video-MLLM agents on EgoBench reveals a severe performance ceiling: the best model achieves only 30.62% accuracy in the best-performing scenario, averaging 19.43% across all four scenarios. Finally, we conduct a multi-dimensional error analysis to disentangle failure modes, exposing capability bottlenecks for advancing future AI agents.
- Abstract(参考訳): AIエージェントがオープンで現実世界の環境でますます運用されるようになると、マルチモーダルな認識、マルチホップ推論によるツール呼び出し、ユーザとの動的インタラクションの深いシナジーが必要になる。
しかし、既存のベンチマークは、厳密に結合された多機能タスクを設計し、自然およびタスク制約されたユーザフィードバックをシミュレートし、動的相互作用の客観的評価を確保するという課題のために、これらの機能を共同で評価することができない。
このギャップを埋めるために、ツール使用エージェントのための対話型マルチモーダルベンチマークであるEgoBenchを紹介します。
EgoBenchは、毎日4つのシナリオをカバーする、エゴセントリックなビデオグラウンドタスク1,045と、ユーザエージェントとツールの対話的な環境から成り立っている。
我々は3段階の相乗的パイプラインを実装し、各タスクは視覚知覚とツール強化マルチホップ推論の併用を強制的に行うように設計されている。
また,エージェントのインタラクション能力を評価するために,EgoBench内のマルチエージェントシミュレーションユーザを開発し,エージェントに対する高忠実でタスク整合性のある応答を生成する。
さらに,プロセスベースおよび結果ベース同値性による客観的評価を保証する決定論的共同検証フレームワークを構築した。
EgoBench上で8つのSOTAビデオMLLMエージェントをベンチマークすると、厳しいパフォーマンス天井が示される: 最高のモデルは、最高のパフォーマンスシナリオで30.62%の精度しか達成せず、4つのシナリオで平均19.43%である。
最後に,多次元誤差解析により障害モードをアンタングル化し,将来のAIエージェントを前進させる能力ボトルネックを明らかにする。
関連論文リスト
- VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions [63.13827503828231]
我々は、長期ユーザーインタラクションにおけるパーソナライズされたプロアクティブなエージェント動作を評価するためのベンチマークであるVitaBench 2.0を紹介する。
結果は、最先端のモデルでさえ、現実世界のパーソナライゼーションは非常に困難であることを示している。
論文 参考訳(メタデータ) (2026-05-26T15:07:38Z) - AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts [35.52607495764441]
大規模言語モデル(LLM)に基づく自律エージェントは、経済的生産に大きく貢献する多面的能力を示す。
我々は、毎日のAI使用から派生したベンチマークであるAgentBenchを紹介し、32の現実シナリオにわたる6つのコアエージェント能力を評価した。
これらのシナリオでは、平均90のツールコール、100万のトークン、解決に必要な実行時間が必要です。
論文 参考訳(メタデータ) (2026-01-16T07:22:20Z) - Agentic Persona Control and Task State Tracking for Realistic User Simulation in Interactive Scenarios [0.0]
対話型シナリオにおける現実的で説明可能なユーザシミュレーションのための,新しいマルチエージェントフレームワークを提案する。
我々は、目標志向の会話において、人間の認知過程を反映するペルソナ制御とタスク状態追跡を採用する。
論文 参考訳(メタデータ) (2025-11-30T20:25:56Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments [25.534332634912005]
マルチエージェント環境における戦略的能力のための視覚言語モデルを評価するベンチマークであるVisual Strategic Bench (VS-Bench)を紹介する。
VLMエージェントの性能は、要素認識精度で測定された知覚、次のアクション予測精度で測定された戦略的推論、正規化エピソードリターンで測定された意思決定の3つの次元にわたって評価される。
論文 参考訳(メタデータ) (2025-06-03T02:57:38Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。