論文の概要: MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations
- arxiv url: http://arxiv.org/abs/2602.19357v1
- Date: Sun, 22 Feb 2026 22:05:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.604861
- Title: MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations
- Title(参考訳): メンタルブラックボード:数学的変換による空間的可視化の評価
- Authors: Nilay Yilmaz, Maitreya Patel, Naga Sai Abhiram Kusumba, Yixuan He, Yezhou Yang,
- Abstract要約: 我々はPaper Folding と Hole Punching テストのためのオープンな空間可視化ベンチマークである MentalBlackboard を開発した。
予測実験により、モデルが対称変換を適用するのに苦労していることが分かる。
計画課題は、対称関係の分析や多段階対称性プロセスの実装におけるモデルの限界を明らかにする。
- 参考スコア(独自算出の注目度): 33.000090283250934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial visualization is the mental ability to imagine, transform, and manipulate the spatial characteristics of objects and actions. This intelligence is a part of human cognition where actions and perception are connected on a mental level. To explore whether state-of-the-art Vision-Language Models (VLMs) exhibit this ability, we develop MentalBlackboard, an open-ended spatial visualization benchmark for Paper Folding and Hole Punching tests within two core tasks: prediction and planning. Our prediction experiments reveal that models struggle with applying symmetrical transformations, even when they predict the sequence of unfolding steps correctly. Also, rotations introduce a significant challenge to the physical situational awareness for models. The planning task reveals limitations of models in analyzing symmetrical relationships and in implementing the multi-stage symmetry process, with Claude Opus 4.1 achieving the highest planning score at an accuracy of 10\%. The top-performing model, o3, attains a peak performance of 71.6\% on the generalization task, which does not require spatial visualization but transfers spatial data; however, it achieves only 25\% accuracy on text-based prediction tasks.
- Abstract(参考訳): 空間的可視化は、物体や行動の空間的特性を想像、変換、操作する精神能力である。
この知性は人間の認知の一部であり、行動と知覚が精神レベルで結びついている。
現状のビジョン・ランゲージ・モデル(VLM)がこの能力を発揮できるかどうかを探るため,2つのコアタスク – 予測と計画 – の中で,ペーパー・フォールディングとホール・パンチングテストのためのオープンな空間可視化ベンチマークであるMentalBlackboardを開発した。
我々の予測実験により、モデルが対称変換を適用するのに苦労していることが明らかとなった。
また、回転はモデルに対する物理的な状況認識に重大な課題をもたらす。
計画課題は、対称性関係の解析および多段階対称性プロセスの実装におけるモデルの限界を明らかにし、クロード・オプス4.1は10倍の精度で最高計画スコアを達成する。
最大性能モデルであるo3は、空間的可視化を必要とせず、空間データを転送する一般化タスクで71.6\%のピーク性能を達成するが、テキストベースの予測タスクでは25\%の精度しか達成しない。
関連論文リスト
- SPHINX: A Synthetic Environment for Visual Perception and Reasoning [4.245676108236535]
視覚知覚と推論のための合成環境であるSphinxを提案する。
モチーフ、タイル、チャート、アイコン、幾何学的プリミティブを使ってパズルを生成する。
このベンチマークでは、対称性検出、幾何学変換、空間推論、チャート解釈、シーケンス予測にまたがる25のタスクタイプがカバーされている。
論文 参考訳(メタデータ) (2025-11-25T20:00:47Z) - Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning [19.549136366694572]
Video2は、ビデオからメートル法で配置された空間レイアウトを再構築するためのフレームワークである。
このフレームワークは、オブジェクト間の物理サイズとオブジェクトサイズを定量化するために、連続的なオブジェクト境界座標を使用する。
我々のモデルであるV2LO-7Bは、グリッドマップで訓練されたモデルよりも平均4.92%向上した。
論文 参考訳(メタデータ) (2025-11-20T08:57:14Z) - Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。
我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。
これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-07-24T15:19:23Z) - Spatial Mental Modeling from Limited Views [71.57140964322559]
新しいMindCubeベンチマークでは、3,268枚の画像に21,154件の質問があった。
MindCubeを用いて、視覚言語モデル(VLM)がいかに堅牢な空間精神モデルを構築するかを評価する。
次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
論文 参考訳(メタデータ) (2025-06-26T16:38:19Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Computing a human-like reaction time metric from stable recurrent vision
models [11.87006916768365]
我々は,刺激計算可能なタスク最適化モデルから,反応時間の計算量を構築するための汎用方法論をスケッチする。
評価基準は,4つの異なる視覚的意思決定タスクの刺激操作において,人間の反応時間のパターンと一致していることを示す。
この研究は、他の様々な認知タスクの文脈において、モデルと人間の視覚戦略の時間的アライメントを探索する方法を開拓する。
論文 参考訳(メタデータ) (2023-06-20T14:56:02Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Physion: Evaluating Physical Prediction from Vision in Humans and
Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。
我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。
物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文 参考訳(メタデータ) (2021-06-15T16:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。