論文の概要: V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2504.06148v1
- Date: Tue, 08 Apr 2025 15:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:34.887781
- Title: V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models
- Title(参考訳): V-MAGE:マルチモーダル大言語モデルにおける視覚中心能力評価のためのゲーム評価フレームワーク
- Authors: Xiangxi Zheng, Linjie Li, Zhengyuan Yang, Ping Yu, Alex Jinpeng Wang, Rui Yan, Yuan Yao, Lijuan Wang,
- Abstract要約: V-MAGEはMLLMの視覚的推論能力を評価するために設計されたゲームベースの評価フレームワークである。
V-MAGEを用いて主要なMLLMを評価し,視覚的知覚と推論において重要な課題を明らかにする。
- 参考スコア(独自算出の注目度): 84.27290155010533
- License:
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have led to significant improvements across various multimodal benchmarks. However, as evaluations shift from static datasets to open-world, dynamic environments, current game-based benchmarks remain inadequate because they lack visual-centric tasks and fail to assess the diverse reasoning skills required for real-world decision-making. To address this, we introduce Visual-centric Multiple Abilities Game Evaluation (V-MAGE), a game-based evaluation framework designed to assess visual reasoning capabilities of MLLMs. V-MAGE features five diverse games with 30+ handcrafted levels, testing models on core visual skills such as positioning, trajectory tracking, timing, and visual memory, alongside higher-level reasoning like long-term planning and deliberation. We use V-MAGE to evaluate leading MLLMs, revealing significant challenges in their visual perception and reasoning. In all game environments, the top-performing MLLMs, as determined by Elo rating comparisons, exhibit a substantial performance gap compared to humans. Our findings highlight critical limitations, including various types of perceptual errors made by the models, and suggest potential avenues for improvement from an agent-centric perspective, such as refining agent strategies and addressing perceptual inaccuracies. Code is available at https://github.com/CSU-JPG/V-MAGE.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、様々なマルチモーダルベンチマークで大幅に改善されている。
しかし、評価が静的データセットからオープンワールド、ダイナミック環境に移行するにつれ、現在のゲームベースのベンチマークは、視覚中心のタスクが欠如し、現実世界の意思決定に必要な多様な推論スキルを評価できないため、不適切なままである。
そこで我々は,MLLMの視覚的推論能力を評価するためのゲームベース評価フレームワークである,視覚中心型多機能ゲーム評価(V-MAGE)を紹介した。
V-MAGEは、30以上の手作りレベルを持つ5つの多様なゲーム、位置追跡、軌跡追跡、タイミング、視覚記憶などのコアビジュアルスキルのテストモデル、長期計画や検討のような高レベルな推論を特徴としている。
V-MAGEを用いて主要なMLLMを評価し,視覚的知覚と推論において重要な課題を明らかにする。
全てのゲーム環境において、トップパフォーマンスのMLLMは、Eloのレーティング比較によって決定されるように、人間に比べてかなりパフォーマンスの差がある。
本研究は, モデルによる知覚的誤りの多種多様を含む, 重要な限界を浮き彫りにし, エージェント戦略の精錬や知覚的不正確性への対処など, エージェント中心の視点による改善の可能性が示唆された。
コードはhttps://github.com/CSU-JPG/V-MAGEで入手できる。
関連論文リスト
- iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.381263829108405]
VLM(Vision-Language Models)は、空間的推論と視覚的アライメントに苦しむことで知られている。
エージェントとして機能するVLMの空間的推論能力を評価するために設計された,インタラクティブなマルチモーダルベンチマークであるiVISPARを紹介する。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - ScratchEval: Are GPT-4o Smarter than My Child? Evaluating Large Multimodal Models with Visual Programming Challenges [20.316852491762788]
LMMの視覚的プログラミング推論能力を評価するための新しいベンチマークであるScratchEvalを提案する。
ScratchEvalは、子どものプログラミング教育で広く使われているブロックベースのビジュアルプログラミング言語である。
論文 参考訳(メタデータ) (2024-11-28T05:51:45Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language
Models [34.91372939329467]
MLLMの純粋推論能力を評価するためのベンチマークであるNPHardEval4Vを導入する。
異なるモデルにまたがる推論能力に有意な差が認められた。
また,視覚,テキスト,視覚とテキストの組み合わせがMLLMの推論能力に与える影響についても検討した。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。