論文の概要: Cube Bench: A Benchmark for Spatial Visual Reasoning in MLLMs
- arxiv url: http://arxiv.org/abs/2512.20595v1
- Date: Tue, 23 Dec 2025 18:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.975657
- Title: Cube Bench: A Benchmark for Spatial Visual Reasoning in MLLMs
- Title(参考訳): Cube Bench: MLLMにおける空間的視覚推論のベンチマーク
- Authors: Dhruv Anand, Ehsan Shareghi,
- Abstract要約: Cube Benchは、大規模言語モデルのシーケンシャル推論を評価するためのベンチマークである。
i)画像とテキストから立方体面を再構成し、(ii)最適な次の動きを選択し、(iii)適用せずに候補の動きの結果を予測し、(iv)ミスから回復しながら多段階計画を実行し、(v)自分のエラーを検出し、修正する。
- 参考スコア(独自算出の注目度): 10.005361076595067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Cube Bench, a Rubik's-cube benchmark for evaluating spatial and sequential reasoning in multimodal large language models (MLLMs). The benchmark decomposes performance into five skills: (i) reconstructing cube faces from images and text, (ii) choosing the optimal next move, (iii) predicting the outcome of a candidate move without applying it, (iv) executing multi-step plans while recovering from mistakes, and (v) detecting and revising one's own errors. Using a shared set of scrambled cube states, identical prompts and parsers, and a single distance-to-solved metric, we compare recent MLLMs side by side as a function of scramble depth. Across seven MLLMs, accuracy drops sharply with depth; once a trajectory stalls or diverges, models rarely recover, and high face-reconstruction accuracy does not guarantee competent action selection or multi-step execution. A pronounced closed- vs open-source gap emerges: the strongest closed model leads on both single-step perception tasks and multi-step control tasks, while open-weight models cluster near chance on the hardest settings; yet even the best MLLM degrades at higher cube complexity. A simple self-correction via reflective thinking yields modest gains but can also introduce overthinking. Cube Bench offers a compact, reproducible probe of sequential spatial reasoning in MLLMs.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)における空間的およびシーケンシャルな推論を評価するためのルービックキューブベンチマークであるCube Benchを紹介する。
ベンチマークはパフォーマンスを5つのスキルに分解する。
一 画像及びテキストから立方体面を復元すること。
(ii) 最適な次の動きを選択すること。
三 適用することなく、候補者の動きの結果を予測すること。
(四)過ちから回復しながら多段階計画を実行すること、
五 自己の誤りを検出して訂正すること。
共有されたスクランブル立方体状態、同一のプロンプトとパーサー、および1つの距離から解ける計量を用いて、スクランブル深さの関数として最近のMLLMを並べて比較する。
軌道が停止したり分岐したりすると、モデルが回復することは滅多になく、高い顔再構成精度は有能な行動選択や多段階実行を保証しない。
最強のクローズドモデルはシングルステップの知覚タスクとマルチステップの制御タスクの両方につながり、一方、オープンウェイトモデルは最も難しい設定で偶然にクラスタされる。
反射的思考による単純な自己補正は、控えめな利得をもたらすが、過度に考え直すこともできる。
Cube Bench は MLLM における逐次空間推論のコンパクトで再現可能なプローブを提供する。
関連論文リスト
- Test-Time Temporal Sampling for Efficient MLLM Video Understanding [26.144261085897863]
Test-Time Temporal Sampling (T3S) は、MLLMが効率よくかつ効果的に長編ビデオを処理できるトレーニングフリーのプラグアンドプレイ推論ラッパーである。
我々の手法は推論時に完全に動作し、モデル修正や微調整は不要であり、幅広い事前訓練されたMLLMと互換性がある。
論文 参考訳(メタデータ) (2025-11-22T06:59:21Z) - PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection [33.98107848014898]
PRISM-Benchはマルチモーダル大言語モデル(MLLM)を評価するために設計されたパズルに基づく視覚的課題のベンチマークである。
PRISM-Benchは、最終回答精度のみを測定する以前の評価とは異なり、診断タスクを導入している: 視覚パズルと、正確に1つのエラーを含むステップバイステップの連鎖が与えられた場合、モデルは最初の誤ったステップを特定する必要がある。
PRISM-Benchのパズルは多段階の記号的、幾何学的、類推的推論を必要とし、表面的なパターンマッチングに基づくショートカットに抵抗する。
論文 参考訳(メタデータ) (2025-10-27T17:57:52Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - Learning to Reason Across Parallel Samples for LLM Reasoning [48.41933431325965]
大規模言語モデル(LLM)において、テスト時間計算のスケーリングは大幅なパフォーマンス向上をもたらす
本稿では,このような複数のサンプル集合を利用する新しい手法を提案する。
5つの推論データセットの実験は、SSAの有効性と効率を実証している。
論文 参考訳(メタデータ) (2025-06-10T17:42:35Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence [74.51213082084428]
MMSI-Benchは、マルチイメージ空間インテリジェンスに特化したVQAベンチマークである。
我々は、大規模な実験を行い、34のオープンソースおよびプロプライエタリMLLMを徹底的に評価する。
最も強力なオープンソースモデルはおよそ30%の精度に達し、OpenAIのo3推論モデルは40%に達し、人間は97%である。
論文 参考訳(メタデータ) (2025-05-29T17:59:52Z) - Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文 参考訳(メタデータ) (2024-05-06T17:57:27Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。