論文の概要: GamiBench: Evaluating Spatial Reasoning and 2D-to-3D Planning Capabilities of MLLMs with Origami Folding Tasks
- arxiv url: http://arxiv.org/abs/2512.22207v1
- Date: Mon, 22 Dec 2025 01:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.887366
- Title: GamiBench: Evaluating Spatial Reasoning and 2D-to-3D Planning Capabilities of MLLMs with Origami Folding Tasks
- Title(参考訳): GamiBench:Origami Folding Tasksを用いたMLLMの空間推論と2次元から3次元計画能力の評価
- Authors: Ryan Spencer, Roey Yaari, Ritvik Vemavarapu, Joyce Yang, Steven Ngo, Utkarsh Sharma,
- Abstract要約: 本稿では,大言語モデル(MLLM)における空間的推論を評価するベンチマークであるGamiBenchを紹介する。
GamiBenchには、186の正規かつ不可能な2Dクリーゼパターンと、対応する3D折りたたみ形状が組み合わされている。
GamiBenchは、クロスビュー整合性の測定、不可能な折りたたみ検出による物理的実現性、中間的な折りたたみステップの解釈など、すべての推論プロセスを評価している。
- 参考スコア(独自算出の注目度): 2.037026133182214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are proficient in perception and instruction-following, but they still struggle with spatial reasoning: the ability to mentally track and manipulate objects across multiple views and over time. Spatial reasoning is a key component of human intelligence, but most existing benchmarks focus on static images or final outputs, failing to account for the sequential and viewpoint-dependent nature of this skill. To close this gap, we introduce GamiBench, a benchmark designed to evaluate spatial reasoning and 2D-to-3D planning in MLLMs through origami-inspired folding tasks. GamiBench includes 186 regular and 186 impossible 2D crease patterns paired with their corresponding 3D folded shapes, produced from six distinct viewpoints across three visual question-answering (VQA) tasks: predicting 3D fold configurations, distinguishing valid viewpoints, and detecting impossible patterns. Unlike previous benchmarks that assess only final predictions, GamiBench holistically evaluates the entire reasoning process--measuring cross-view consistency, physical feasibility through impossible-fold detection, and interpretation of intermediate folding steps. It further introduces new diagnostic metrics--viewpoint consistency (VC) and impossible fold selection rate (IFSR)--to measure how well models handle folds of varying complexity. Our experiments show that even leading models such as GPT-5 and Gemini-2.5-Pro struggle on single-step spatial understanding. These contributions establish a standardized framework for evaluating geometric understanding and spatial reasoning in MLLMs. Dataset and code: https://github.com/stvngo/GamiBench.
- Abstract(参考訳): MLLM(Multimodal large language model)は、知覚と指示追従に長けているが、空間的推論に苦慮している。
空間推論は人間の知性の重要な要素であるが、既存のベンチマークのほとんどは静的画像や最終的な出力に焦点を当てており、このスキルのシーケンシャルで視点に依存した性質を考慮に入れていない。
このギャップを埋めるために、我々は、折り紙に着想を得た折り畳みタスクを通してMLLMにおける空間的推論と2次元から3次元計画を評価するためのベンチマークであるGamiBenchを紹介する。
GamiBenchには、186の正規および186の不可能な2D折り畳みパターンと対応する3D折り畳みパターンが組み込まれており、3つの視覚的質問応答(VQA)タスクの6つの異なる視点から生成される。
最終的な予測のみを評価する以前のベンチマークとは異なり、GamiBenchは、クロスビューの一貫性の測定、不可能な折りたたみ検出による物理的実現性、中間的な折りたたみステップの解釈など、すべての推論プロセスを評価している。
さらに、新しい診断基準-視点整合性 (VC) と不可能な折りたたみ選択率 (IFSR) を導入し、モデルがどのように様々な複雑さの折りたたみを処理するかを測定する。
実験の結果, GPT-5 や Gemini-2.5-Pro などの先行モデルでさえ, 単一段階の空間的理解に苦慮していることがわかった。
これらの貢献は、MLLMにおける幾何学的理解と空間的推論を評価するための標準化された枠組みを確立する。
データセットとコード:https://github.com/stvngo/GamiBench.com
関連論文リスト
- GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation [81.0871900167463]
GeoSAM2は3次元部分分割のためのプロンプト制御可能なフレームワークである。
テクスチャのないオブジェクトが与えられた場合、事前に定義された視点から正規写像とポイントマップを描画する。
部品の選択をガイドするシンプルな2Dプロンプト(クリックやボックス)を受け入れます。
予測されたマスクはオブジェクトにバックプロジェクションされ、ビューに集約される。
論文 参考訳(メタデータ) (2025-08-19T17:58:51Z) - Beyond the Visible: Benchmarking Occlusion Perception in Multimodal Large Language Models [17.922450921582794]
咬合知覚は、人間レベルの空間的理解にとって重要な基礎である。
我々は,オクルージョン知覚に特化して設計された最初の視覚的質問応答(VQA)ベンチマークであるO-Benchを紹介する。
論文 参考訳(メタデータ) (2025-08-06T03:39:21Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。