論文の概要: Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views
- arxiv url: http://arxiv.org/abs/2510.18632v1
- Date: Tue, 21 Oct 2025 13:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.628639
- Title: Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views
- Title(参考訳): 3Dで考える:限られた視点から見る幾何学的イマジネーション
- Authors: Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang,
- Abstract要約: 3DThinkerは、画像に埋め込まれたリッチな幾何学的情報を、人間のように推論しながら活用するフレームワークだ。
私たちのフレームワークは,3D事前入力を使わずに推論中に初めて3Dのメンタリングを可能にするもので,トレーニングのために明示的にラベル付けされた3Dデータに頼らない。
- 参考スコア(独自算出の注目度): 41.05815610513033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though recent advances in vision-language models (VLMs) have achieved remarkable progress across a wide range of multimodal tasks, understanding 3D spatial relationships from limited views remains a significant challenge. Previous reasoning methods typically rely on pure text (e.g., topological cognitive maps) or on 2D visual cues. However, their limited representational capacity hinders performance in specific tasks that require 3D spatial imagination. To address this limitation, we propose 3DThinker, a framework that can effectively exploits the rich geometric information embedded within images while reasoning, like humans do. Our framework is the first to enable 3D mentaling during reasoning without any 3D prior input, and it does not rely on explicitly labeled 3D data for training. Specifically, our training consists of two stages. First, we perform supervised training to align the 3D latent generated by VLM while reasoning with that of a 3D foundation model (e.g., VGGT). Then, we optimize the entire reasoning trajectory solely based on outcome signals, thereby refining the underlying 3D mentaling. Extensive experiments across multiple benchmarks show that 3DThinker consistently outperforms strong baselines and offers a new perspective toward unifying 3D representations into multimodal reasoning. Our code will be available at https://github.com/zhangquanchen/3DThinker.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩は多モーダルなタスクにおいて顕著な進歩を遂げているが、限られた視点から3次元空間関係を理解することは大きな課題である。
従来の推論手法は通常、純粋なテキスト(トポロジカル認知地図など)や2次元視覚的手がかりに頼っている。
しかし、その限られた表現能力は、3次元空間的想像力を必要とする特定のタスクのパフォーマンスを妨げる。
この制限に対処するために,人間のように推論しながら画像内に埋め込まれたリッチな幾何学的情報を効果的に活用するフレームワークである3DThinkerを提案する。
私たちのフレームワークは,3D事前入力を使わずに推論中に初めて3Dのメンタリングを可能にするもので,トレーニングのために明示的にラベル付けされた3Dデータに頼らない。
具体的には、トレーニングは2つのステージで構成されます。
まず,VLMが生成する3D潜伏剤を3次元基礎モデル(例えばVGGT)と組み合わせて調整する指導訓練を行う。
そして,結果信号のみに基づく推論軌道全体を最適化し,基礎となる3次元思考を精査する。
複数のベンチマークにわたる大規模な実験により、3DThinkerは強いベースラインを一貫して上回り、3D表現をマルチモーダルな推論に統一する新たな視点を提供する。
私たちのコードはhttps://github.com/zhangquanchen/3DThinker.comで公開されます。
関連論文リスト
- LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight [105.9472902251177]
次世代の予測問題として3D検出を行うVLMネイティブレシピを提案する。
このモデルでは, 49.89 AP_3Dの精度を+15.51倍に向上した。
論文 参考訳(メタデータ) (2025-11-25T18:59:45Z) - Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - SpatialReasoner: Towards Explicit and Generalizable 3D Spatial Reasoning [23.6011224506759]
本稿では3次元空間推論に対処する新しい大規模視覚言語モデル(LVLM)を提案する。
明示的な3D表現は、高度な3D空間推論をサポートするコヒーレントインターフェースを提供する。
その結果,SpatialReasonerは,様々な空間推論ベンチマークの性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-04-28T17:48:43Z) - 3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark [25.311698492216127]
3次元空間推論は、3次元空間内の物体の位置、向き、空間的関係を分析し、解釈する能力である。
大規模マルチモーダルモデル(LMM)は、幅広い画像および映像理解タスクにおいて顕著な進歩を遂げている。
2,772対の視覚的質問応答対を持つ3DSRBenchを用いた3次元空間推論ベンチマークを作成した。
論文 参考訳(メタデータ) (2024-12-10T18:55:23Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - SPARE3D: A Dataset for SPAtial REasoning on Three-View Line Drawings [9.651400924429336]
SPARE3Dは、認知科学と心理計測に基づいて、ビュー一貫性、カメラポーズ、形状生成に関する3種類の2D-3D推論タスクを含む。
次に,課題ごとの真理回答を基礎として,多数の課題を自動生成する手法を設計する。
実験によると、畳み込みネットワークは多くの視覚学習タスクにおいて超人的性能を達成したが、SPARE3Dタスクにおける空間推論性能は平均人的性能よりも低いか、あるいはランダムな推測に近いかのどちらかである。
論文 参考訳(メタデータ) (2020-03-31T09:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。