論文の概要: Reasmory: 3D Reconstruction as Explicit Memory for VLMs Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2606.00963v1
- Date: Sun, 31 May 2026 02:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.004997
- Title: Reasmory: 3D Reconstruction as Explicit Memory for VLMs Spatial Reasoning
- Title(参考訳): VLM空間共振用3次元記憶装置の開発
- Authors: Jixuan He, Xueting Li, Chieh Hubert Lin, Ming-Hsuan Yang,
- Abstract要約: VLM(Vision-Language Models)は、空間的推論能力の出現を示すが、正確な空間的理解を必要とするタスクには信頼できない。
再構成空間メモリ上での構造化プログラム実行として空間推論を定式化するフレームワークであるtextbfReasmoryを提案する。
Reasmoryは明示的な3Dメモリを構築し、セマンティックな3Dオブジェクトインスタンスで拡張し、軽量なDomain-Specific Languageを導入している。
- 参考スコア(独自算出の注目度): 43.950190960277865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) exhibit emerging spatial reasoning capabilities, yet they remain unreliable on tasks requiring precise spatial understanding, such as viewpoint reasoning, directional comparison, and distance estimation. In multi-view images and monocular videos, relevant spatial cues are often sparse and distributed across redundant observations, making them difficult to organize and exploit. Reconstruction-based Vision Foundation Models (VFMs) offer a natural way to aggregate such observations into explicit spatial memory, such as point clouds. However, simply exposing reconstruction models as free-form tools is brittle, VLMs may invoke tools incorrectly, skip required spatial transformations, or misuse intermediate results. We propose \textbf{Reasmory}, a framework that formulates spatial reasoning as structured program execution over reconstructed spatial memory. Reasmory constructs explicit 3D memory, augments it with semantically grounded 3D object instances, and introduces a lightweight Domain-Specific Language (DSL) that constrains how VLMs query objects and cameras, transform viewpoints, and render observations during reasoning. Generated programs are parsed and validated before execution, enabling more reliable interaction with spatial memory than unconstrained tool use. Experiments on multi-view image and video spatial reasoning benchmarks show consistent gains of 6--18\% over strong baselines, including GPT-5-mini and Gemini-3-flash, indicating that explicit 3D memory is most useful when accessed through constrained, validated operations rather than free-form tool calls.
- Abstract(参考訳): 視覚言語モデル(VLM)は、出現する空間的推論能力を示すが、視点的推論、方向比較、距離推定などの正確な空間的理解を必要とするタスクには信頼できない。
多視点画像や単眼ビデオでは、関連した空間的手がかりは、しばしば冗長な観察に分散され、組織化や利用が困難になる。
レコンストラクションベースのビジョンファンデーションモデル(VFM)は、これらの観測結果を点雲などの空間記憶に集約する自然な方法を提供する。
しかし、単に復元モデルをフリーフォームツールとして公開することは不安定であり、VLMは間違ったツールを呼び出したり、必要な空間変換をスキップしたり、中間結果を誤用したりすることができる。
再構成空間メモリ上での構造化プログラム実行として空間推論を定式化するフレームワークである「textbf{Reasmory}」を提案する。
Reasmoryは明示的な3Dメモリを構築し、3Dオブジェクトインスタンスを意味的に基礎づけた形で拡張し、VLMがオブジェクトやカメラをどのようにクエリするかを制約し、視点を変換し、推論中に観察をレンダリングする軽量なDomain-Specific Language(DSL)を導入している。
生成プログラムは実行前に解析され、検証され、制約のないツールの使用よりもより信頼性の高い空間記憶との相互作用を可能にする。
GPT-5-mini や Gemini-3-flash など、強力なベースラインよりも、6--18\% の連続的なゲインを示すマルチビュー画像とビデオ空間推論ベンチマークの実験では、自由形式のツールコールではなく、制約付きで検証された操作を通じてアクセスする場合、明示的な3Dメモリが最も有用であることが示されている。
関連論文リスト
- GA-VLN: Geometry-Aware BEV Representation for Efficient Vision-Language Navigation [75.85672467847631]
本稿では,3次元のコンパクトな特徴表現であるGeometry-Aware BEV (GA-BEV)を紹介する。
視覚的特徴を3次元空間に投影することで,RGB-D入力からBEV空間マップを構築する。
我々は,BEV空間に事前訓練された3Dファンデーションモデルの特徴を取り入れ,大規模3D再構築作業から学んだ構造的先行を注入する。
論文 参考訳(メタデータ) (2026-05-21T06:20:17Z) - VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models [55.12929235609365]
現在の視覚言語アクション(VLA)モデルの視覚バックボーンは、主に3次元幾何学的監督を伴わない2次元画像データに事前訓練されている。
既存の暗黙の接地法は、VLA特徴を3D認識基盤モデルと整合させることによって、この問題に部分的に対処する。
DINOv2-FiT3D の空間認識機能と VLA の視覚エンコーダの出力を直接一致させるフレームワーク VEGA を提案する。
論文 参考訳(メタデータ) (2026-05-11T12:44:26Z) - Enhancing MLLM Spatial Understanding via Active 3D Scene Exploration for Multi-Perspective Reasoning [10.542346290671114]
明示的な3次元再構成を基礎としたビジュアル・チェーン・オブ・ソート・メカニズムを導入したテクスティングフリーなフレームワークを提案する。
このフレームワークは、3DSRBenchやRel3Dといった主要なベンチマークにおいて、特別な空間モデルや汎用MLLMよりも優れている。
論文 参考訳(メタデータ) (2026-04-08T06:47:55Z) - SpatialMosaic: A Multiview VLM Dataset for Partial Visibility [25.874299974251965]
本稿では,現実的な空間推論QAを構築する,スケーラブルなマルチビューデータ生成とアノテーションパイプラインを提案する。
本研究では,現実的かつ困難なシナリオ下での多視点空間推論評価のためのベンチマークであるSpatialMosaic-Benchを紹介する。
また、3次元再構成モデルを視覚言語モデル内の幾何学エンコーダとして統合するハイブリッドフレームワークであるSpatialMosaicVLMを提案する。
論文 参考訳(メタデータ) (2025-12-29T10:48:54Z) - S$^2$-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance [20.55536735670125]
3Dビジュアルグラウンド(3DVG)は、自然言語記述に基づく3Dシーンにおけるオブジェクトの配置に焦点を当てている。
MLLM(Multi-modal Large Language Models)の最近の進歩は、それらを3DVGに拡張する研究の動機となっている。
S$2$-MLLMは、暗黙の空間的推論を通じてMLLMの空間的推論を強化する効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T03:08:34Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。