論文の概要: PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning
- arxiv url: http://arxiv.org/abs/2602.23945v1
- Date: Fri, 27 Feb 2026 11:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.398946
- Title: PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning
- Title(参考訳): PointCoT: 明示的な3次元幾何学推論のためのマルチモーダルベンチマーク
- Authors: Dongxu Zhang, Yiding Sun, Pengcheng Li, Yumou Liu, Hongqiang Lin, Haoran Xu, Xiaoxuan Mu, Liang Lin, Wenbiao Yan, Ning Yang, Chaowei Fang, Juanjuan Zhao, Jihua Zhu, Conghui He, Cheng Tan,
- Abstract要約: 我々は,3次元データに対する明示的なチェーン・オブ・ソート(CoT)推論でMLLMを強化する新しいフレームワークであるPointCoTを提案する。
両ストリームのマルチモーダルアーキテクチャを活用することで,幾何学的真理とセマンティックな外観を相乗化することができる。
- 参考スコア(独自算出の注目度): 82.55361351483005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) demonstrate proficiency in 2D scenes, extending their perceptual intelligence to 3D point cloud understanding remains a significant challenge. Current approaches focus primarily on aligning 3D features with pre-trained models. However, they typically treat geometric reasoning as an implicit mapping process. These methods bypass intermediate logical steps and consequently suffer from geometric hallucinations. They confidently generate plausible responses that fail to ground in precise structural details. To bridge this gap, we present PointCoT, a novel framework that empowers MLLMs with explicit Chain-of-Thought (CoT) reasoning for 3D data. We advocate for a \textit{Look, Think, then Answer} paradigm. In this approach, the model is supervised to generate geometry-grounded rationales before predicting final answers. To facilitate this, we construct Point-Reason-Instruct, a large-scale benchmark comprising $\sim$86k instruction-tuning samples with hierarchical CoT annotations. By leveraging a dual-stream multi-modal architecture, our method synergizes semantic appearance with geometric truth. Extensive experiments demonstrate that PointCoT achieves state-of-the-art performance on complex reasoning tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は2次元シーンで習熟度を示すが、知覚的インテリジェンスを3Dポイントのクラウド理解にまで拡張することは依然として大きな課題である。
現在のアプローチは主に、トレーニング済みのモデルと3D機能の整合性に重点を置いている。
しかし、一般に幾何学的推論を暗黙のマッピングプロセスとして扱う。
これらの手法は中間論理ステップをバイパスし、結果として幾何学的幻覚に悩まされる。
彼らは、正確に構造的な詳細を把握できない、確実な応答を確実に生成する。
このギャップを埋めるために、我々は3Dデータに対する明示的なChain-of-Thought(CoT)推論でMLLMを強化する新しいフレームワークであるPointCoTを紹介します。
私たちは \textit{Look, Think, then Answer} パラダイムを提唱します。
このアプローチでは、最終的な答えを予測する前に、幾何学的基底を持つ有理数を生成するように教師される。
これを容易にするために,階層CoTアノテーションを用いた$\sim$86kの命令チューニングサンプルからなる大規模ベンチマークであるPoint-Reason-Instructを構築した。
両ストリームのマルチモーダルアーキテクチャを活用することで,幾何学的真理とセマンティックな外観を相乗化することができる。
大規模な実験により、PointCoTは複雑な推論タスクで最先端のパフォーマンスを達成する。
関連論文リスト
- KeyPointDiffuser: Unsupervised 3D Keypoint Learning via Latent Diffusion Models [3.6047642906482147]
本稿では,空間的に構造化された3次元キーポイントを点雲データから学習するための教師なしフレームワークを提案する。
これらのキーポイントはコンパクトで解釈可能な表現として機能し、Eucidated Diffusion Model (EDM) を用いて完全な形状を再構築する。
提案手法は多種多様な対象カテゴリにまたがって高い性能を達成し,従来の手法に比べてキーポイントの一貫性が6ポイント向上した。
論文 参考訳(メタデータ) (2025-12-03T05:08:03Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation [57.8059956428009]
2次元視覚言語モデルから3次元セマンティックセグメンテーションへ機能を移行しようとする最近の試みは、永続的なトレードオフを露呈している。
3次元教師モデルから抽出した幾何学的事前情報を用いて2次元VLM生成した3次元点特徴に小さな学生親和性ネットワークを適用したGeoPurifyを提案する。
遅延幾何学情報と学習された親和性ネットワークから恩恵を受けることで、GeoPurifyはトレードオフを効果的に軽減し、優れたデータ効率を実現する。
論文 参考訳(メタデータ) (2025-10-02T16:37:56Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - Pts3D-LLM: Studying the Impact of Token Structure for 3D Scene Understanding With Large Language Models [9.658828841170472]
本研究は,3次元トークン構造に関する厳密な研究であり,映像ベースおよび点ベース表現を体系的に比較する。
本稿では,ソナタで事前学習したポイントトランスフォーマーV3エンコーダの3Dポイントクラウド機能を組み込むことで,視覚トークンを充実させる手法を提案する。
論文 参考訳(メタデータ) (2025-06-06T02:35:26Z) - DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction [67.13370009386635]
そこで,Dual Point Map (DualPM)を導入し,同じ画像一点関連画素からオブジェクト上の3D位置へ,残りのポーズでオブジェクトの標準バージョンへ,一対の点マップを抽出する。
3次元再構成と3次元ポーズ推定はDualPMの予測に還元できることを示す。
論文 参考訳(メタデータ) (2024-12-05T18:59:48Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。