論文の概要: V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2504.06148v2
- Date: Fri, 16 May 2025 12:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:12.681415
- Title: V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models
- Title(参考訳): V-MAGE:マルチモーダル大言語モデルにおける視覚中心能力評価のためのゲーム評価フレームワーク
- Authors: Xiangxi Zheng, Linjie Li, Zhengyuan Yang, Ping Yu, Alex Jinpeng Wang, Rui Yan, Yuan Yao, Lijuan Wang,
- Abstract要約: 本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
- 参考スコア(独自算出の注目度): 84.27290155010533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in visual-text processing. However, existing static image-text benchmarks are insufficient for evaluating their dynamic perception and interactive reasoning abilities. We introduce Vision-centric Multiple Abilities Game Evaluation(V-MAGE), a novel game-based evaluation framework designed to systematically assess MLLMs' visual reasoning in interactive, continuous-space environments. V-MAGE features five distinct video games comprising over 30 carefully constructed evaluation scenarios. These scenarios are set in free-form, visually complex environments that require models to interpret dynamic game states and make decisions based solely on visual input, thereby closely reflecting the conditions encountered by human players. To ensure robust and interpretable comparisons across models, V-MAGE employs a dynamic Elo-based ranking system that accounts for varying difficulty levels and task diversity. Benchmarking state-of-the-art MLLMs against human baselines reveals that while leading models approach human-level performance in simple tasks, their performance drops significantly in complex scenarios requiring advanced reasoning and task orchestration. This persistent performance gap highlights fundamental limitations in current MLLMs' ability to perform real-time, vision-grounded interactions. Through extensive analyses, we demonstrate the utility of V-MAGE in uncovering these limitations and providing actionable insights for improving the visual and reasoning capabilities of MLLMs in dynamic, interactive settings. Code is publicly available at https://github.com/CSU-JPG/V-MAGE.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、視覚テキスト処理における印象的な能力を示している。
しかし、既存の静的画像テキストベンチマークは、動的知覚と対話的推論能力を評価するには不十分である。
インタラクティブな連続空間環境におけるMLLMの視覚的推論を体系的に評価する新しいゲームベース評価フレームワークであるビジョン中心多機能ゲーム評価(V-MAGE)を導入する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
これらのシナリオは、動的ゲームの状態を解釈し、視覚的な入力のみに基づいて決定を行うモデルを必要とする、自由で視覚的に複雑な環境で設定される。
モデル間の堅牢で解釈可能な比較を保証するため、V-MAGEでは、さまざまな難易度とタスクの多様性を考慮に入れた、ダイナミックなEloベースのランキングシステムを採用している。
人間のベースラインに対して最先端のMLLMをベンチマークすると、リードモデルが単純なタスクで人間レベルのパフォーマンスにアプローチする一方で、高度な推論とタスクオーケストレーションを必要とする複雑なシナリオでは、そのパフォーマンスが大幅に低下することが明らかになった。
この持続的なパフォーマンスギャップは、現在のMLLMがリアルタイムで視覚的な相互作用を行う能力の基本的な制限を強調している。
本研究では,これらの制約を明らかにする上でのV-MAGEの有用性を実証し,動的・インタラクティブな環境下でのMLLMの視覚的・推論能力を改善するための実用的な洞察を提供する。
コードはhttps://github.com/CSU-JPG/V-MAGEで公開されている。
関連論文リスト
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。
それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。
本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:26:11Z) - Are Large Vision Language Models Good Game Players? [25.49713745405194]
大規模視覚言語モデル(LVLM)は、視覚情報とテキスト情報の両方について理解と推論において顕著な能力を示した。
既存のLVLMの評価手法は、主にVisual Question Answeringのようなベンチマークに基づいており、LVLMの能力の全範囲を捉えていないことが多い。
構造化環境におけるLVLMの認知・推論スキルを総合的に評価するためのゲームベース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T07:29:03Z) - VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。
VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。
GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language
Models [34.91372939329467]
MLLMの純粋推論能力を評価するためのベンチマークであるNPHardEval4Vを導入する。
異なるモデルにまたがる推論能力に有意な差が認められた。
また,視覚,テキスト,視覚とテキストの組み合わせがMLLMの推論能力に与える影響についても検討した。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。