論文の概要: Think3D: Thinking with Space for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2601.13029v1
- Date: Mon, 19 Jan 2026 13:13:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.907176
- Title: Think3D: Thinking with Space for Spatial Reasoning
- Title(参考訳): Think3D:空間推論のための空間を考える
- Authors: Zaibin Zhang, Yuhan Wu, Lianjie Jia, Yifan Wang, Zhongbo Zhang, Yijiang Li, Binghao Ran, Fuxi Zhang, Zhuohan Sun, Zhenfei Yin, Lijun Wang, Huchuan Lu,
- Abstract要約: 本稿では,視覚大モデル(VLM)を3次元空間で考えることを可能にするフレームワークであるThink3Dを紹介する。
追加のトレーニングがなければ、Think3Dは高度なモデルの空間推論性能を大幅に改善する。
本研究は,マルチモーダルエージェントのより柔軟で人間らしい3D推論への道筋として,無トレーニングでツールを付加した空間探索が有効であることを示す。
- 参考スコア(独自算出の注目度): 54.518667686880114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and reasoning about the physical world requires spatial intelligence: the ability to interpret geometry, perspective, and spatial relations beyond 2D perception. While recent vision large models (VLMs) excel at visual understanding, they remain fundamentally 2D perceivers and struggle with genuine 3D reasoning. We introduce Think3D, a framework that enables VLM agents to think with 3D space. By leveraging 3D reconstruction models that recover point clouds and camera poses from images or videos, Think3D allows the agent to actively manipulate space through camera-based operations and ego/global-view switching, transforming spatial reasoning into an interactive 3D chain-of-thought process. Without additional training, Think3D significantly improves the spatial reasoning performance of advanced models such as GPT-4.1 and Gemini 2.5 Pro, yielding average gains of +7.8% on BLINK Multi-view and MindCube, and +4.7% on VSI-Bench. We further show that smaller models, which struggle with spatial exploration, benefit significantly from a reinforcement learning policy that enables the model to select informative viewpoints and operations. With RL, the benefit from tool usage increases from +0.7% to +6.8%. Our findings demonstrate that training-free, tool-augmented spatial exploration is a viable path toward more flexible and human-like 3D reasoning in multimodal agents, establishing a new dimension of multimodal intelligence. Code and weights are released at https://github.com/zhangzaibin/spagent.
- Abstract(参考訳): 物理的世界に対する理解と推論には空間的知性が必要であり、2次元の知覚を超えた幾何学、視点、空間的関係を解釈する能力である。
近年の視覚大モデル(VLM)は視覚的理解に優れていますが、それらは基本的に2D知覚者であり、真の3D推論に苦戦しています。
本稿では,VLMエージェントが3次元空間で考えることを可能にするフレームワークThink3Dを紹介する。
画像やビデオからポイントクラウドやカメラのポーズを復元する3D再構成モデルを活用することで、Think3Dはカメラベースの操作やego/global-viewの切り替えを通じて空間を積極的に操作し、空間的推論をインタラクティブな3Dチェーンオブ思考プロセスに変換する。
追加の訓練がなければ、Think3D は GPT-4.1 や Gemini 2.5 Pro のような先進モデルの空間推論性能を著しく改善し、BLINK Multi-view と MindCube では平均で +7.8%、VSI-Bench では +4.7% となる。
さらに,空間探索に苦しむ小型モデルは,情報的視点と操作を選択可能な強化学習政策から大きな恩恵を受けることを示す。
RLでは、ツールの使用の利点は+0.7%から+6.8%に増加する。
本研究は,マルチモーダルエージェントにおけるより柔軟で人間らしい3次元推論への道筋として,トレーニングフリーでツールを付加した空間探索が実現可能であることを示す。
コードとウェイトはhttps://github.com/zhangzaibin/spagent.comで公開されている。
関連論文リスト
- G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning [36.62798449863548]
VLM(Vision-Language Models)は、空間知能にはまだ堅牢性がない。
G$2$VLMは空間知能の2つの基本的な側面を橋渡しする視覚言語モデルである。
論文 参考訳(メタデータ) (2025-11-26T18:59:39Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。
本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。
画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文 参考訳(メタデータ) (2025-07-24T14:53:26Z) - MindJourney: Test-Time Scaling with World Models for Spatial Reasoning [97.61985090279961]
視覚言語モデルのためのテスト時間スケーリングフレームワークであるMindJourneyを提案する。
我々は,代表的空間推論ベンチマークSATにおいて,MindJourneyが平均7.7%以上の性能向上を達成したことを示す。
また,本手法は,強化学習により訓練した試験時間推定VLMも改善する。
論文 参考訳(メタデータ) (2025-07-16T17:59:36Z) - 3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark [25.311698492216127]
3次元空間推論は、3次元空間内の物体の位置、向き、空間的関係を分析し、解釈する能力である。
大規模マルチモーダルモデル(LMM)は、幅広い画像および映像理解タスクにおいて顕著な進歩を遂げている。
2,772対の視覚的質問応答対を持つ3DSRBenchを用いた3次元空間推論ベンチマークを作成した。
論文 参考訳(メタデータ) (2024-12-10T18:55:23Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。