論文の概要: ING-VP: MLLMs cannot Play Easy Vision-based Games Yet
- arxiv url: http://arxiv.org/abs/2410.06555v1
- Date: Wed, 9 Oct 2024 05:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:59:08.364556
- Title: ING-VP: MLLMs cannot Play Easy Vision-based Games Yet
- Title(参考訳): ING-VP:MLLMは簡単にヴィジュアライズできるゲームはできない
- Authors: Haoran Zhang, Hangyu Guo, Shuyue Guo, Meng Cao, Wenhao Huang, Jiaheng Liu, Ge Zhang,
- Abstract要約: MLLM(Multimodal large language model)は、幅広いタスクにまたがる競争力の向上を示す。
既存のマルチモーダルベンチマークでは、画像内の空間的関係に基づくマルチステップ計画の集中的な評価が不十分である。
Interactive Game-based Vision PlanningベンチマークであるING-VPを提案し,MLLMの空間的想像力と多段階推論能力を評価する。
- 参考スコア(独自算出の注目度): 40.851540679589256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As multimodal large language models (MLLMs) continue to demonstrate increasingly competitive performance across a broad spectrum of tasks, more intricate and comprehensive benchmarks have been developed to assess these cutting-edge models. These benchmarks introduce new challenges to core capabilities such as perception, reasoning, and planning. However, existing multimodal benchmarks fall short in providing a focused evaluation of multi-step planning based on spatial relationships in images. To bridge this gap, we present ING-VP, the first INteractive Game-based Vision Planning benchmark, specifically designed to evaluate the spatial imagination and multi-step reasoning abilities of MLLMs. ING-VP features 6 distinct games, encompassing 300 levels, each with 6 unique configurations. A single model engages in over 60,000 rounds of interaction. The benchmark framework allows for multiple comparison settings, including image-text vs. text-only inputs, single-step vs. multi-step reasoning, and with-history vs. without-history conditions, offering valuable insights into the model's capabilities. We evaluated numerous state-of-the-art MLLMs, with the highest-performing model, Claude-3.5 Sonnet, achieving an average accuracy of only 3.37%, far below the anticipated standard. This work aims to provide a specialized evaluation framework to drive advancements in MLLMs' capacity for complex spatial reasoning and planning. The code is publicly available at https://github.com/Thisisus7/ING-VP.git.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、幅広いタスクにおいて競争力のある性能を示し続けているため、これらの最先端モデルを評価するためにより複雑で包括的なベンチマークが開発されている。
これらのベンチマークでは、知覚、推論、計画といったコア機能に新たな課題が導入されている。
しかし、既存のマルチモーダルベンチマークでは、画像内の空間的関係に基づくマルチステップ計画の集中的な評価が不十分である。
このギャップを埋めるために,我々は,MLLMの空間的想像力と多段階推論能力を評価するために,最初のInteractive Game-based Vision PlanningベンチマークであるING-VPを提案する。
ING-VPには6つの異なるゲームがあり、それぞれが6つのユニークな構成を持つ300のレベルを含んでいる。
1つのモデルが6万回以上のインタラクションを行う。
ベンチマークフレームワークは、画像テキストとテキストのみの入力、シングルステップとマルチステップの推論、歴史のない条件と非歴史のない条件を含む、複数の比較設定を可能にし、モデルの能力に関する貴重な洞察を提供する。
我々は,最先端モデルであるClaude-3.5 Sonnetを用いた最先端MLLMを多数評価し,平均精度は3.37%に過ぎなかった。
本研究の目的は、複雑な空間的推論と計画のためのMLLMの能力向上を促進するための特別な評価フレームワークを提供することである。
コードはhttps://github.com/Thisisus7/ING-VP.gitで公開されている。
関連論文リスト
- Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking [0.12369742273401668]
2487の難解な視覚パズルを特徴とする新しい総合ベンチマークであるPARROT-360Vベンチマークを紹介する。
GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro の先行モデルの評価を行った。
最新モデルのスコアはベンチマークで28~56パーセンテージで、一般的なベンチマークでのパフォーマンスよりも大幅に低かった。
論文 参考訳(メタデータ) (2024-11-20T01:09:21Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling [22.885385107905222]
我々は50以上の視覚言語モデル(VLM)ベンチマークの統一実装であるUniBenchを紹介する。
約60の公開ビジョン言語モデルを評価することで,UniBenchの進歩度測定に有効であることを示す。
また、59モデルにまたがる50以上のベンチマークと比較の完全なセットと、1つのGPUで5分で実行されるベンチマークの蒸留セットを備えた、簡単に実行できるUniBenchコードベースもリリースしました。
論文 参考訳(メタデータ) (2024-08-09T01:41:05Z) - Task Me Anything [72.810309406219]
本稿では,ユーザのニーズに合わせたベンチマークを作成する。
113Kイメージ、10Kビデオ、2Kの3Dオブジェクトアセット、365以上のオブジェクトカテゴリ、655の属性、335の関係がある。
750万のイメージ/ビデオ問合せペアを生成することが可能で、知覚能力の評価に重点を置いている。
論文 参考訳(メタデータ) (2024-06-17T17:32:42Z) - MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning [22.440669015518015]
マルチモーダル大言語モデル(MLLM)が抽象的な視覚的推論能力を持っているかどうかを評価する。
スドゥークパズルと同様に、抽象的視覚推論(AVR)問題は高レベルのパターンを見つける必要がある。
6つのコア知識パターン,幾何学的および抽象的形状,5つのタスク構成からなる770個のMLLMのベンチマークであるMARVELを紹介する。
論文 参考訳(メタデータ) (2024-04-21T09:15:02Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。