論文の概要: pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2603.00905v1
- Date: Sun, 01 Mar 2026 03:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.405158
- Title: pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning
- Title(参考訳): pySpatial: ゼロショット空間推論のための3次元ビジュアルプログラムの生成
- Authors: Zhanpeng Luo, Ce Zhang, Silong Yong, Cunxi Dai, Qianwei Wang, Haoxi Ran, Guanya Shi, Katia Sycara, Yaqi Xie,
- Abstract要約: pySpatialは、MLLMと空間ツールとのインタフェースを備えたビジュアルプログラミングフレームワークである。
pySpatialは生の2D入力を探索可能な3Dシーンに変換し、MLLMが構造化された空間表現に対して明示的に推論することを可能にする。
- 参考スコア(独自算出の注目度): 18.697914587954163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have demonstrated strong capabilities in general-purpose perception and reasoning, but they still struggle with tasks that require spatial understanding of the 3D world. To address this, we introduce pySpatial, a visual programming framework that equips MLLMs with the ability to interface with spatial tools via Python code generation. Given an image sequence and a natural-language query, the model composes function calls to spatial tools including 3D reconstruction, camera-pose recovery, novel-view rendering, etc. These operations convert raw 2D inputs into an explorable 3D scene, enabling MLLMs to reason explicitly over structured spatial representations. Notably, pySpatial requires no gradient-based fine-tuning and operates in a fully zero-shot setting. Experimental evaluations on the challenging MindCube and Omni3D-Bench benchmarks demonstrate that our framework pySpatial consistently surpasses strong MLLM baselines; for instance, it outperforms GPT-4.1-mini by 12.94% on MindCube. Furthermore, we conduct real-world indoor navigation experiments where the robot can successfully traverse complex environments using route plans generated by pySpatial, highlighting the practical effectiveness of our approach.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、汎用的な認識と推論において強力な能力を示してきたが、それでも3次元世界の空間的理解を必要とするタスクに苦戦している。
これを解決するために,MLLM と Python コード生成による空間ツールとのインタフェースを備えたビジュアルプログラミングフレームワーク pySpatial を紹介した。
画像シーケンスと自然言語クエリが与えられたモデルでは、3D再構成、カメラ位置回復、ノベルビューレンダリングなどの空間ツールへの関数呼び出しを構成する。
これらの操作は生の2D入力を探索可能な3Dシーンに変換し、MLLMが構造化された空間表現を明示的に推論することを可能にする。
特に、pySpatialは勾配ベースの微調整を必要とせず、完全にゼロショット設定で動作する。
MindCube と Omni3D-Bench ベンチマークの実験的評価では,私たちのフレームワーク pySpatial は強力な MLLM ベースラインを一貫して上回り,例えば MindCube では GPT-4.1-mini を 12.94% 上回っている。
さらに, pySpatial が生成した経路計画を用いて, ロボットが複雑な環境を横断する実世界の屋内ナビゲーション実験を行い, 本手法の有効性を強調した。
関連論文リスト
- S$^2$-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance [20.55536735670125]
3Dビジュアルグラウンド(3DVG)は、自然言語記述に基づく3Dシーンにおけるオブジェクトの配置に焦点を当てている。
MLLM(Multi-modal Large Language Models)の最近の進歩は、それらを3DVGに拡張する研究の動機となっている。
S$2$-MLLMは、暗黙の空間的推論を通じてMLLMの空間的推論を強化する効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T03:08:34Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting [16.896443736904356]
既存の3Dセグメンテーション手法は、しばしば曖昧で推論に基づく指示を解釈するのに苦労する。
本稿では,オープンワールド推論に基づくセグメンテーションを実現する,革新的なMLLMエージェントフレームワークであるREALMを紹介する。
我々のフレームワークは、オブジェクトの削除、置換、スタイル転送など、様々な3Dインタラクションタスクをシームレスにサポートしています。
論文 参考訳(メタデータ) (2025-10-18T08:53:08Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models [9.279591094901152]
SORT3Dは2Dデータからリッチなオブジェクト属性を利用して、大規模言語モデル(LLM)とAsベースの空間推論ツールボックスをマージし、シーケンシャルな推論を行う。
2つのベンチマークにおいて、複雑なビュー依存グラウンド処理におけるSORT3Dのゼロショット性能を示す。
また、このパイプラインを実装して、2台の自動運転車でリアルタイムに実行し、我々のアプローチが、これまで見つからなかった現実世界の環境におけるオブジェクトゴールナビゲーションに利用できることを実証しています。
論文 参考訳(メタデータ) (2025-04-25T20:24:11Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文 参考訳(メタデータ) (2024-05-06T17:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。