論文の概要: ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark
- arxiv url: http://arxiv.org/abs/2501.05031v2
- Date: Thu, 13 Mar 2025 07:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 17:08:08.174262
- Title: ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark
- Title(参考訳): ECBench: マルチモーダルファンデーションモデルは、エゴセントリックな世界を理解することができるか?
- Authors: Ronghao Dang, Yuqian Yuan, Wenqi Zhang, Yifei Xin, Boqiang Zhang, Long Li, Liuyi Wang, Qinyang Zeng, Xin Li, Lidong Bing,
- Abstract要約: ECBenchは、大規模視覚言語モデル(LVLM)の具体的認知能力を体系的に評価するために設計されたベンチマークである。
ECBenchは多様なシーンビデオソース、オープンで多様な質問フォーマット、30次元のエンボディド認知を備えている。
我々は、プロプライエタリ、オープンソース、タスク固有のLVLMの広範な評価を行う。
- 参考スコア(独自算出の注目度): 44.64084739916821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The enhancement of generalization in robots by large vision-language models (LVLMs) is increasingly evident. Therefore, the embodied cognitive abilities of LVLMs based on egocentric videos are of great interest. However, current datasets for embodied video question answering lack comprehensive and systematic evaluation frameworks. Critical embodied cognitive issues, such as robotic self-cognition, dynamic scene perception, and hallucination, are rarely addressed. To tackle these challenges, we propose ECBench, a high-quality benchmark designed to systematically evaluate the embodied cognitive abilities of LVLMs. ECBench features a diverse range of scene video sources, open and varied question formats, and 30 dimensions of embodied cognition. To ensure quality, balance, and high visual dependence, ECBench uses class-independent meticulous human annotation and multi-round question screening strategies. Additionally, we introduce ECEval, a comprehensive evaluation system that ensures the fairness and rationality of the indicators. Utilizing ECBench, we conduct extensive evaluations of proprietary, open-source, and task-specific LVLMs. ECBench is pivotal in advancing the embodied cognitive capabilities of LVLMs, laying a solid foundation for developing reliable core models for embodied agents. All data and code are available at https://github.com/Rh-Dang/ECBench.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)によるロボットの一般化の促進がますます顕著になっている。
したがって、自我中心ビデオに基づくLVLMの具体的認知能力は非常に興味深い。
しかし、ビデオ質問応答の具体化のための現在のデータセットには、包括的かつ体系的な評価フレームワークが欠如している。
ロボットの自己認識、ダイナミックシーンの知覚、幻覚といった重要な身体的認知問題はめったに解決されない。
これらの課題に対処するために,LVLMの具体的認知能力を体系的に評価する,高品質なベンチマークECBenchを提案する。
ECBenchは多様なシーンビデオソース、オープンで多様な質問フォーマット、30次元のエンボディド認知を備えている。
品質、バランス、高い視覚的依存を保証するため、ECBenchはクラスに依存しない厳密な人間のアノテーションと複数ラウンドの質問スクリーニング戦略を使用している。
さらに,指標の公平性と合理性を保証する総合評価システムであるECEvalを紹介する。
ECBenchを利用して、プロプライエタリ、オープンソース、タスク固有のLVLMを広範囲に評価する。
ECBenchは、LVLMのエンボディド認知能力を推進し、エンボディドエージェントの信頼性の高いコアモデルを開発するための確かな基盤を構築している。
すべてのデータとコードはhttps://github.com/Rh-Dang/ECBench.comで入手できる。
関連論文リスト
- Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency [29.28977802424541]
視覚的依存を明示する多モーダル数学的推論のための総合的なベンチマークであるVCBENCHを紹介する。
VCBENCHには6つの認知領域に1,720の問題がある。
我々は、VCBENCH上で26の最先端LVLMを評価し、高い性能差を示し、トップモデルでさえ50%以上の精度を達成できなかった。
論文 参考訳(メタデータ) (2025-04-24T06:16:38Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Are Large Vision Language Models Good Game Players? [25.49713745405194]
大規模視覚言語モデル(LVLM)は、視覚情報とテキスト情報の両方について理解と推論において顕著な能力を示した。
既存のLVLMの評価手法は、主にVisual Question Answeringのようなベンチマークに基づいており、LVLMの能力の全範囲を捉えていないことが多い。
構造化環境におけるLVLMの認知・推論スキルを総合的に評価するためのゲームベース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T07:29:03Z) - ESVQA: Perceptual Quality Assessment of Egocentric Spatial Videos [71.62145804686062]
我々は,600個のエゴセントリックな空間ビデオとそれらの平均評価スコア(MOS)からなる,最初のエゴセントリックな空間ビデオ品質評価データベース(ESVQAD)を紹介する。
両眼の空間, 動き, 意味的特徴を統合し, 知覚品質を予測できる新しい多次元両眼機能融合モデル ESVQAnet を提案する。
ESVQAnetは知覚品質評価タスクにおいて16の最先端VQAモデルより優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-12-29T10:13:30Z) - VCBench: A Controllable Benchmark for Symbolic and Abstract Challenges in Video Cognition [19.215440092652507]
本稿では,記号的および抽象的概念を含む認知能力を評価するための,制御可能なベンチマークであるVCBenchを紹介する。
Pythonベースのエンジンでビデオデータを生成することにより、VCBenchはビデオコンテンツの正確な制御を可能にする。
評価の結果、Qwen2-VL-72Bのような最先端(SOTA)モデルでさえ、抽象概念を含む単純なビデオ認識タスクに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T00:26:26Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。