論文の概要: Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?
- arxiv url: http://arxiv.org/abs/2605.11223v1
- Date: Mon, 11 May 2026 20:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.417138
- Title: Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?
- Title(参考訳): Vision-Language-Modelsは、ポイント・アンド・クリックパズルゲームにおいて、人間のような論理的問題解決能力を示すか?
- Authors: Dominik Helfenstein, Marco Menner, Maximilian Triebel,
- Abstract要約: 本稿では,人間の論理的問題解決能力を評価するためのベンチマークであるVision-Language Against The Incredible Machine (VLATIM)を紹介する。
既存のベンチマークとは異なり、VLATIMは特に高レベルの論理的推論と連続的なアクション空間の間の臨界ギャップをターゲットとしている。
その結果, 推論と実行の相違が明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language(-Action) Models (VLMs) are increasingly applied to interactive environments, yet existing benchmarks often overlook the complex physical reasoning required for point-and-click puzzle games. This paper introduces Vision-Language Against The Incredible Machine (VLATIM), a benchmark designed to evaluate human-like logical problem-solving capabilities within the classic physics puzzle game The Incredible Machine 2 (TIM). Unlike existing benchmarks, VLATIM specifically targets the critical gap between high-level logical reasoning and continuous action spaces requiring precise mouse interactions. This benchmark is structured into five progressive parts, assessing capabilities that range from basic visual grounding and domain understanding to multi-step manipulation and full puzzle solving. Our results reveal a significant disparity between reasoning and execution. While large proprietary models demonstrate superior planning abilities, they struggle with precise visual grounding. Consequently, they do not yet show human-like problem-solving capabilities.
- Abstract(参考訳): VLM(Vision-Language(-Action) Models)は、インタラクティブな環境に適用されることが多いが、既存のベンチマークでは、ポイント・アンド・クリックパズルゲームに必要な複雑な物理的推論を見落としていることが多い。
本稿では,古典的な物理パズルゲームThe Incredible Machine 2 (TIM)において,人間のような論理的問題解決能力を評価するためのベンチマークであるVision-Language Against The Incredible Machine (VLATIM)を紹介する。
既存のベンチマークとは異なり、VLATIMは特に、高精度なマウスの相互作用を必要とする高レベルの論理的推論と連続的な行動空間の間の臨界ギャップを目標としている。
このベンチマークは5つのプログレッシブな部分で構成されており、基本的なビジュアルグラウンドニングやドメイン理解からマルチステップ操作、完全なパズル解決まで幅広い機能を評価する。
その結果, 推論と実行の相違が明らかとなった。
大きなプロプライエタリなモデルは優れた計画能力を示しているが、正確なビジュアルグラウンドで苦労している。
そのため、人間のような問題解決能力は示していない。
関連論文リスト
- From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T15:33:02Z) - SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models [60.088066516175026]
視覚言語モデル(VLM)の空間論理的推論能力を評価するためのベンチマークを導入する。
41の主流VLMに対して広範な実験を行い、最も先進的なモデルでさえも空間的論理的推論に苦戦していることを示す。
本稿では,視覚基盤モデルを利用して複雑なシーンをタスク関連シーングラフに段階的に分解する再帰的シーングラフ支援手法を提案する。
論文 参考訳(メタデータ) (2026-02-24T13:38:37Z) - Game-Time: Evaluating Temporal Dynamics in Spoken Language Models [93.844257719952]
時間的能力を評価するためにGame-Time Benchmarkフレームワークを導入します。
多様なSLMモデルについて評価した結果,性能の相違が明らかとなった。
GameTime Benchmarkは、より時間的に認識された会話型AIに向けた将来の研究を導くための基盤を提供する。
論文 参考訳(メタデータ) (2025-09-30T15:23:39Z) - GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games [7.594173359523366]
GVGAI-LLMは,大規模言語モデル(LLM)の推論と問題解決能力を評価するためのゲームベンチマークである。
General Video Game AIフレームワーク上に構築され、既存のLLMベンチマークとは異なるタスクを処理するモデルの能力をテストするために設計された、アーケードスタイルのゲームの多種多様なコレクションを備えている。
論文 参考訳(メタデータ) (2025-08-11T22:17:07Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge [45.20691825097646]
私たちはビジュアル推論をターゲットとしたベンチマークであるVisualPuzzlesを紹介します。
VisualPuzzlesは5つのカテゴリにまたがる多様な質問で構成されている。
論文 参考訳(メタデータ) (2025-04-14T15:50:39Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。