論文の概要: ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark
- arxiv url: http://arxiv.org/abs/2501.05031v1
- Date: Thu, 09 Jan 2025 07:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:45.346035
- Title: ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark
- Title(参考訳): ECBench: マルチモーダルファンデーションモデルは、エゴセントリックな世界を理解することができるか?
- Authors: Ronghao Dang, Yuqian Yuan, Wenqi Zhang, Yifei Xin, Boqiang Zhang, Long Li, Liuyi Wang, Qinyang Zeng, Xin Li, Lidong Bing,
- Abstract要約: ECBenchは、大規模視覚言語モデル(LVLM)の具体的認知能力を体系的に評価するために設計されたベンチマークである。
ECBenchは多様なシーンビデオソース、オープンで多様な質問フォーマット、30次元のエンボディド認知を備えている。
我々は、プロプライエタリ、オープンソース、タスク固有のLVLMの広範な評価を行う。
- 参考スコア(独自算出の注目度): 44.64084739916821
- License:
- Abstract: The enhancement of generalization in robots by large vision-language models (LVLMs) is increasingly evident. Therefore, the embodied cognitive abilities of LVLMs based on egocentric videos are of great interest. However, current datasets for embodied video question answering lack comprehensive and systematic evaluation frameworks. Critical embodied cognitive issues, such as robotic self-cognition, dynamic scene perception, and hallucination, are rarely addressed. To tackle these challenges, we propose ECBench, a high-quality benchmark designed to systematically evaluate the embodied cognitive abilities of LVLMs. ECBench features a diverse range of scene video sources, open and varied question formats, and 30 dimensions of embodied cognition. To ensure quality, balance, and high visual dependence, ECBench uses class-independent meticulous human annotation and multi-round question screening strategies. Additionally, we introduce ECEval, a comprehensive evaluation system that ensures the fairness and rationality of the indicators. Utilizing ECBench, we conduct extensive evaluations of proprietary, open-source, and task-specific LVLMs. ECBench is pivotal in advancing the embodied cognitive capabilities of LVLMs, laying a solid foundation for developing reliable core models for embodied agents. All data and code are available at https://github.com/Rh-Dang/ECBench.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)によるロボットの一般化の促進がますます顕著になっている。
したがって、自我中心ビデオに基づくLVLMの具体的認知能力は非常に興味深い。
しかし、ビデオ質問応答の具体化のための現在のデータセットには、包括的かつ体系的な評価フレームワークが欠如している。
ロボットの自己認識、ダイナミックシーンの知覚、幻覚といった重要な身体的認知問題はめったに解決されない。
これらの課題に対処するために,LVLMの具体的認知能力を体系的に評価する,高品質なベンチマークECBenchを提案する。
ECBenchは多様なシーンビデオソース、オープンで多様な質問フォーマット、30次元のエンボディド認知を備えている。
品質、バランス、高い視覚的依存を保証するため、ECBenchはクラスに依存しない厳密な人間のアノテーションと複数ラウンドの質問スクリーニング戦略を使用している。
さらに,指標の公平性と合理性を保証する総合評価システムであるECEvalを紹介する。
ECBenchを利用して、プロプライエタリ、オープンソース、タスク固有のLVLMを広範囲に評価する。
ECBenchは、LVLMのエンボディド認知能力を推進し、エンボディドエージェントの信頼性の高いコアモデルを開発するための確かな基盤を構築している。
すべてのデータとコードはhttps://github.com/Rh-Dang/ECBench.comで入手できる。
関連論文リスト
- VCBench: A Controllable Benchmark for Symbolic and Abstract Challenges in Video Cognition [19.215440092652507]
本稿では,記号的および抽象的概念を含む認知能力を評価するための,制御可能なベンチマークであるVCBenchを紹介する。
Pythonベースのエンジンでビデオデータを生成することにより、VCBenchはビデオコンテンツの正確な制御を可能にする。
評価の結果、Qwen2-VL-72Bのような最先端(SOTA)モデルでさえ、抽象概念を含む単純なビデオ認識タスクに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T00:26:26Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。
我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-15T14:08:53Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Attention Mechanism based Cognition-level Scene Understanding [23.592893555879538]
Visual Commonsense Reasoning (VCR)モデルは、現実の世界からの推論能力を必要とする、対応する理論的根拠による回答を予測することができる。
VCRタスクを解くための従来のアプローチは、一般的に、長い依存性関係の符号化されたモデルによるメモリの事前トレーニングや利用に頼っている。
本稿では,視覚的テクスト情報を効率的に融合し,セマンティック情報を並列に符号化し,認知レベルの推論のためのリッチな情報を取得するための並列注意型認知VCRネットワークPAVCRを提案する。
論文 参考訳(メタデータ) (2022-04-17T15:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。