論文の概要: Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views
- arxiv url: http://arxiv.org/abs/2510.18632v1
- Date: Tue, 21 Oct 2025 13:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.628639
- Title: Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views
- Title(参考訳): 3Dで考える:限られた視点から見る幾何学的イマジネーション
- Authors: Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang,
- Abstract要約: 3DThinkerは、画像に埋め込まれたリッチな幾何学的情報を、人間のように推論しながら活用するフレームワークだ。
私たちのフレームワークは,3D事前入力を使わずに推論中に初めて3Dのメンタリングを可能にするもので,トレーニングのために明示的にラベル付けされた3Dデータに頼らない。
- 参考スコア(独自算出の注目度): 41.05815610513033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though recent advances in vision-language models (VLMs) have achieved remarkable progress across a wide range of multimodal tasks, understanding 3D spatial relationships from limited views remains a significant challenge. Previous reasoning methods typically rely on pure text (e.g., topological cognitive maps) or on 2D visual cues. However, their limited representational capacity hinders performance in specific tasks that require 3D spatial imagination. To address this limitation, we propose 3DThinker, a framework that can effectively exploits the rich geometric information embedded within images while reasoning, like humans do. Our framework is the first to enable 3D mentaling during reasoning without any 3D prior input, and it does not rely on explicitly labeled 3D data for training. Specifically, our training consists of two stages. First, we perform supervised training to align the 3D latent generated by VLM while reasoning with that of a 3D foundation model (e.g., VGGT). Then, we optimize the entire reasoning trajectory solely based on outcome signals, thereby refining the underlying 3D mentaling. Extensive experiments across multiple benchmarks show that 3DThinker consistently outperforms strong baselines and offers a new perspective toward unifying 3D representations into multimodal reasoning. Our code will be available at https://github.com/zhangquanchen/3DThinker.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩は多モーダルなタスクにおいて顕著な進歩を遂げているが、限られた視点から3次元空間関係を理解することは大きな課題である。
従来の推論手法は通常、純粋なテキスト(トポロジカル認知地図など)や2次元視覚的手がかりに頼っている。
しかし、その限られた表現能力は、3次元空間的想像力を必要とする特定のタスクのパフォーマンスを妨げる。
この制限に対処するために,人間のように推論しながら画像内に埋め込まれたリッチな幾何学的情報を効果的に活用するフレームワークである3DThinkerを提案する。
私たちのフレームワークは,3D事前入力を使わずに推論中に初めて3Dのメンタリングを可能にするもので,トレーニングのために明示的にラベル付けされた3Dデータに頼らない。
具体的には、トレーニングは2つのステージで構成されます。
まず,VLMが生成する3D潜伏剤を3次元基礎モデル(例えばVGGT)と組み合わせて調整する指導訓練を行う。
そして,結果信号のみに基づく推論軌道全体を最適化し,基礎となる3次元思考を精査する。
複数のベンチマークにわたる大規模な実験により、3DThinkerは強いベースラインを一貫して上回り、3D表現をマルチモーダルな推論に統一する新たな視点を提供する。
私たちのコードはhttps://github.com/zhangquanchen/3DThinker.comで公開されます。
関連論文リスト
- Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - 3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark [25.311698492216127]
3次元空間推論は、3次元空間内の物体の位置、向き、空間的関係を分析し、解釈する能力である。
大規模マルチモーダルモデル(LMM)は、幅広い画像および映像理解タスクにおいて顕著な進歩を遂げている。
2,772対の視覚的質問応答対を持つ3DSRBenchを用いた3次元空間推論ベンチマークを作成した。
論文 参考訳(メタデータ) (2024-12-10T18:55:23Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。