論文の概要: PointLLM-R: Enhancing 3D Point Cloud Reasoning via Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2605.22013v1
- Date: Thu, 21 May 2026 05:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.105575
- Title: PointLLM-R: Enhancing 3D Point Cloud Reasoning via Chain-of-Thought
- Title(参考訳): PointLLM-R:Chain-of-Thoughtによる3Dポイントクラウド推論の強化
- Authors: Chaoqi Chen, Qile Xu, Wenjun Zhou, Hui Huang,
- Abstract要約: チェイン・オブ・ソート(CoT)推論はLLMや画像ベースMLLMにおいて強い効果を示している。
本研究では,3Dポイントクラウド理解に適した大規模CoTインスペクションを構築するためのデータ中心フレームワークを提案する。
PoCoTI上で微調整されたPointLLMは、推論可能な3Dマルチモーダル言語モデルであるPointLLM-Rを得る。
- 参考スコア(独自算出の注目度): 17.13654442098613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding 3D point clouds through language remains a fundamental challenge in computer graphics and visual computing, due to the irregular structure of point cloud data and the lack of explicit reasoning in existing 3D multimodal models. While Chain-of-Thought (CoT) reasoning has shown strong effectiveness in LLMs and image-based MLLMs, its extension to 3D understanding remains largely underexplored. In this paper, we propose a data-centric framework for constructing large-scale CoT supervision tailored to 3D point cloud understanding. Our framework consists of a two-stage pipeline that first refines point-text instruction data via vision-language-model-based quality evaluation and reference-guided refinement, and then synthesizes high-quality reasoning paths through Human-in-the-Loop Prompt Optimization (HiLPO). Using this approach, we build PoCoTI, a CoT-enhanced point-text instruction-following dataset containing 55K samples with explicit reasoning paths. Fine-tuning PointLLM on PoCoTI yields PointLLM-R, a reasoning-capable 3D multimodal language model. Extensive experiments on generative 3D classification and captioning demonstrate that PointLLM-R achieves state-of-the-art performance and generalizes robustly to real-world scanned point clouds and multi-turn dialogue scenarios.
- Abstract(参考訳): ポイントクラウドデータの不規則な構造と、既存の3Dマルチモーダルモデルにおける明確な推論の欠如のため、言語による3Dポイントクラウドの理解は、コンピュータグラフィックスとビジュアルコンピューティングにおける根本的な課題である。
CoT(Chain-of-Thought)推論はLLMや画像ベースMLLMにおいて大きな効果を示したが、その3D理解への拡張は未解明のままである。
本稿では,3Dポイントクラウド理解に適した大規模CoTインスペクションを構築するためのデータ中心フレームワークを提案する。
我々のフレームワークは、まず視覚言語モデルに基づく品質評価と参照誘導による改善を通じてポイントテキスト命令データを洗練し、次にHuman-in-the-Loop Prompt Optimization (HiLPO)を通して高品質な推論経路を合成する2段階パイプラインで構成されている。
このアプローチを用いることで、明示的な推論パスを持つ55Kサンプルを含むCoT強化のポイントテキスト追跡データセットであるPoCoTIを構築する。
PoCoTI上で微調整されたPointLLMは、推論可能な3Dマルチモーダル言語モデルであるPointLLM-Rを得る。
生成3D分類とキャプションに関する大規模な実験により、PointLLM-Rは最先端のパフォーマンスを実現し、実世界のスキャンされた点雲とマルチターン対話シナリオに頑健に一般化することを示した。
関連論文リスト
- PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning [82.55361351483005]
我々は,3次元データに対する明示的なチェーン・オブ・ソート(CoT)推論でMLLMを強化する新しいフレームワークであるPointCoTを提案する。
両ストリームのマルチモーダルアーキテクチャを活用することで,幾何学的真理とセマンティックな外観を相乗化することができる。
論文 参考訳(メタデータ) (2026-02-27T11:47:45Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning [20.562109430526007]
CoT(Chain-of-Thought)推論は自然言語処理において有効であることが証明されているが、マルチモーダルアライメントでは未探索である。
本研究では,構造的推論をアライメントトレーニングに組み込むことで,3次元視覚支援学習への統合について検討する。
論文 参考訳(メタデータ) (2025-03-08T14:24:54Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。