論文の概要: Map2Thought: Explicit 3D Spatial Reasoning via Metric Cognitive Maps
- arxiv url: http://arxiv.org/abs/2601.11442v1
- Date: Fri, 16 Jan 2026 17:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.576403
- Title: Map2Thought: Explicit 3D Spatial Reasoning via Metric Cognitive Maps
- Title(参考訳): Map2Thought:メトリコグニティブマップによる3D空間推論
- Authors: Xiangjun Gao, Zhensong Zhang, Dave Zhenyu Chen, Songcen Xu, Long Quan, Eduardo Pérez-Pellitero, Youngkyoon Jang,
- Abstract要約: Map2Thoughtは、3D VLMの明示的で解釈可能な空間推論を可能にするフレームワークである。
Metric Cognitive Map (Metric-CogMap) と Cognitive Chain-of-Thought (Cog-CoT) はフレームワークの重要なコンポーネントである。
我々はMap2Thoughtが説明可能な3D理解を可能にし、半分の監督だけで59.9%の精度を達成できることを示した。
- 参考スコア(独自算出の注目度): 35.51348819617679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Map2Thought, a framework that enables explicit and interpretable spatial reasoning for 3D VLMs. The framework is grounded in two key components: Metric Cognitive Map (Metric-CogMap) and Cognitive Chain-of-Thought (Cog-CoT). Metric-CogMap provides a unified spatial representation by integrating a discrete grid for relational reasoning with a continuous, metric-scale representation for precise geometric understanding. Building upon the Metric-CogMap, Cog-CoT performs explicit geometric reasoning through deterministic operations, including vector operations, bounding-box distances, and occlusion-aware appearance order cues, producing interpretable inference traces grounded in 3D structure. Experimental results show that Map2Thought enables explainable 3D understanding, achieving 59.9% accuracy using only half the supervision, closely matching the 60.9% baseline trained with the full dataset. It consistently outperforms state-of-the-art methods by 5.3%, 4.8%, and 4.0% under 10%, 25%, and 50% training subsets, respectively, on the VSI-Bench.
- Abstract(参考訳): 本稿では,3次元VLMの空間的推論を明示的かつ解釈可能なフレームワークであるMap2Thoughtを提案する。
フレームワークはMetric Cognitive Map (Metric-CogMap) と Cognitive Chain-of-Thought (Cog-CoT) の2つの重要なコンポーネントで構成されている。
Metric-CogMapは、関係推論のための離散グリッドと正確な幾何学的理解のための連続的、計量スケールの表現を統合することで、統一された空間表現を提供する。
Cog-CoTはMetric-CogMap上に構築され、ベクトル演算、バウンディングボックス距離、オクルージョン認識オーダキューを含む決定論的操作を通じて、明示的な幾何学的推論を行い、3次元構造に接地した解釈可能な推論トレースを生成する。
実験の結果、Map2Thoughtは説明可能な3D理解を可能にし、半分の監督だけで59.9%の精度を実現し、完全なデータセットでトレーニングされた60.9%のベースラインと密接に一致している。
VSI-Benchでは、それぞれ10%、25%、50%のトレーニングサブセットで、最先端の手法を5.3%、4.8%、そして4.0%で一貫して上回っている。
関連論文リスト
- Neural Semantic Surface Maps [52.61017226479506]
本稿では,2つの属とゼロの形状の地図を自動計算する手法を提案する。
提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。
論文 参考訳(メタデータ) (2023-09-09T16:21:56Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - SATR: Zero-Shot Semantic Segmentation of 3D Shapes [74.08209893396271]
大規模オフザシェルフ2次元画像認識モデルを用いて3次元形状のゼロショットセマンティックセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では、SATRアルゴリズムを開発し、ShapeNetPartと提案したFAUSTベンチマークを用いて評価する。
SATRは最先端のパフォーマンスを達成し、ベースラインアルゴリズムを平均mIoUの1.3%と4%で上回っている。
論文 参考訳(メタデータ) (2023-04-11T00:43:16Z) - Contour Context: Abstract Structural Distribution for 3D LiDAR Loop
Detection and Metric Pose Estimation [31.968749056155467]
本稿では,高精度な3DoF距離ポーズ推定を用いた簡易かつ効果的かつ効率的なトポロジカルループ閉包検出パイプラインを提案する。
我々は,3次元LiDAR点から投影されるBEV像を構造層分布として解釈する。
検索キーは、層状KD木でインデックスされたデータベースの検索を高速化するように設計されている。
論文 参考訳(メタデータ) (2023-02-13T07:18:24Z) - BoxGraph: Semantic Place Recognition and Pose Estimation from 3D LiDAR [22.553026961366005]
意味的に特定されたコンポーネントの完全連結グラフとして、3Dポイントクラウドをモデル化する。
グラフ間の最適アソシエーションにより、完全な6自由度(DoF)のポーズ推定と位置認識が可能になる。
この表現は非常に簡潔で、最先端に対して25の因子で写像のサイズを縮める。
論文 参考訳(メタデータ) (2022-06-30T09:39:08Z) - Improving Lidar-Based Semantic Segmentation of Top-View Grid Maps by
Learning Features in Complementary Representations [3.0413873719021995]
我々は、自律運転の文脈において、スパースで単発のLiDAR測定から意味情報を予測するための新しい方法を提案する。
このアプローチは、トップビューグリッドマップのセマンティックセグメンテーションを改善することを目的としている。
各表現に対して、セマンティック情報を効果的に抽出するために、調整されたディープラーニングアーキテクチャが開発された。
論文 参考訳(メタデータ) (2022-03-02T14:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。