論文の概要: EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?
- arxiv url: http://arxiv.org/abs/2506.05287v1
- Date: Thu, 05 Jun 2025 17:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.862347
- Title: EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World?
- Title(参考訳): EOC-Bench: MLLMは、エゴセントリックな世界でオブジェクトを識別、リコール、予測できるか?
- Authors: Yuqian Yuan, Ronghao Dang, Long Li, Wentong Li, Dian Jiao, Xin Li, Deli Zhao, Fan Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang,
- Abstract要約: マルチモーダル・大規模言語モデル(MLLM)は、自我中心の視覚応用において画期的な進歩を遂げた。
EOC-Benchは、動的自我中心のシナリオにおいて、オブジェクト中心の具体的認識を体系的に評価するために設計された革新的なベンチマークである。
EOC-Benchに基づく各種プロプライエタリ,オープンソース,オブジェクトレベルのMLLMの総合評価を行う。
- 参考スコア(独自算出の注目度): 52.99661576320663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of multimodal large language models (MLLMs) has driven breakthroughs in egocentric vision applications. These applications necessitate persistent, context-aware understanding of objects, as users interact with tools in dynamic and cluttered environments. However, existing embodied benchmarks primarily focus on static scene exploration, emphasizing object's appearance and spatial attributes while neglecting the assessment of dynamic changes arising from users' interactions. To address this gap, we introduce EOC-Bench, an innovative benchmark designed to systematically evaluate object-centric embodied cognition in dynamic egocentric scenarios. Specially, EOC-Bench features 3,277 meticulously annotated QA pairs categorized into three temporal categories: Past, Present, and Future, covering 11 fine-grained evaluation dimensions and 3 visual object referencing types. To ensure thorough assessment, we develop a mixed-format human-in-the-loop annotation framework with four types of questions and design a novel multi-scale temporal accuracy metric for open-ended temporal evaluation. Based on EOC-Bench, we conduct comprehensive evaluations of various proprietary, open-source, and object-level MLLMs. EOC-Bench serves as a crucial tool for advancing the embodied object cognitive capabilities of MLLMs, establishing a robust foundation for developing reliable core models for embodied systems.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の出現は、自我中心の視覚応用において画期的な進展をもたらした。
これらのアプリケーションは、動的で散在した環境のツールと対話するため、オブジェクトの永続的でコンテキスト対応の理解を必要とする。
しかし、既存の実施ベンチマークは、主に静的なシーン探索に焦点を当てており、ユーザのインタラクションから生じる動的変化の評価を無視しながら、オブジェクトの外観や空間特性を強調している。
このギャップに対処するために、ダイナミックなエゴセントリックなシナリオにおいて、オブジェクト中心の具体的認識を体系的に評価するために設計された革新的なベンチマークであるEOC-Benchを紹介する。
特に、EOC-Benchは、3,277の微妙な注釈付きQAペアを3つの時間カテゴリーに分類している。
徹底的な評価を確保するため,4種類の質問を混在する混合型ヒューマン・イン・ザ・ループ・アノテーション・フレームワークを開発し,オープンエンドの時間的評価のための新しいマルチスケール時間的精度指標を設計する。
EOC-Benchに基づいて,さまざまなプロプライエタリ,オープンソース,オブジェクトレベルのMLLMを包括的に評価する。
EOC-Benchは、MLLMの実施対象認知能力を向上するための重要なツールとして機能し、実装されたシステムのための信頼性の高いコアモデルを開発するための堅牢な基盤を確立する。
関連論文リスト
- SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。
SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。
ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-05-08T17:45:44Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark [44.64084739916821]
ECBenchは、大規模視覚言語モデル(LVLM)の具体的認知能力を体系的に評価するために設計されたベンチマークである。
ECBenchは多様なシーンビデオソース、オープンで多様な質問フォーマット、30次元のエンボディド認知を備えている。
我々は、プロプライエタリ、オープンソース、タスク固有のLVLMの広範な評価を行う。
論文 参考訳(メタデータ) (2025-01-09T07:43:49Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Monocular Per-Object Distance Estimation with Masked Object Modeling [33.59920084936913]
本稿では、Masked Image Modeling (MiM) からインスピレーションを得て、マルチオブジェクトタスクに拡張する。
Masked Object Modeling (MoM) と呼ばれる我々の戦略は、マスキング技術の新しい応用を可能にする。
我々は、標準KITTI、NuScenes、MOT Synthデータセット上の新しい参照アーキテクチャ(DistFormer)におけるMoMの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。