論文の概要: Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model
- arxiv url: http://arxiv.org/abs/2509.07825v1
- Date: Tue, 09 Sep 2025 15:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.368954
- Title: Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model
- Title(参考訳): ポイント言語モデル:橋渡し大型3次元言語モデルによる任意のオブジェクトのセグメンテーション
- Authors: Zhuoxu Huang, Mingqi Gao, Jungong Han,
- Abstract要約: 大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
- 参考スコア(独自算出の注目度): 51.02616473941499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object segmentation with Large Language Models (LLMs) has become a prevailing paradigm due to its broad semantics, task flexibility, and strong generalization. However, this paradigm is hindered by representation misalignment: LLMs process high-level semantic tokens, whereas 3D point clouds convey only dense geometric structures. In prior methods, misalignment limits both input and output. At the input stage, dense point patches require heavy pre-alignment, weakening object-level semantics and confusing similar distractors. At the output stage, predictions depend only on dense features without explicit geometric cues, leading to a loss of fine-grained accuracy. To address these limitations, we present the Point Linguist Model (PLM), a general framework that bridges the representation gap between LLMs and dense 3D point clouds without requiring large-scale pre-alignment between 3D-text or 3D-images. Specifically, we introduce Object-centric Discriminative Representation (OcDR), which learns object-centric tokens that capture target semantics and scene relations under a hard negative-aware training objective. This mitigates the misalignment between LLM tokens and 3D points, enhances resilience to distractors, and facilitates semantic-level reasoning within LLMs. For accurate segmentation, we introduce the Geometric Reactivation Decoder (GRD), which predicts masks by combining OcDR tokens carrying LLM-inferred geometry with corresponding dense features, preserving comprehensive dense features throughout the pipeline. Extensive experiments show that PLM achieves significant improvements of +7.3 mIoU on ScanNetv2 and +6.0 mIoU on Multi3DRefer for 3D referring segmentation, with consistent gains across 7 benchmarks spanning 4 different tasks, demonstrating the effectiveness of comprehensive object-centric reasoning for robust 3D understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
以前の方法では、誤調整は入力と出力の両方を制限する。
入力段階では、高密度な点パッチは、重度の事前調整、オブジェクトレベルのセマンティクスの弱化、および同様の障害を混乱させる必要がある。
出力段階では、予測は明示的な幾何学的手がかりのない濃密な特徴にのみ依存し、きめ細かい精度が失われる。
これらの制約に対処するために,LLMと高密度3次元点群の間の表現ギャップを3次元テキストや3次元画像の大規模な事前調整を必要とせずに橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
具体的には,オブジェクト中心の識別的表現(OcDR)を導入し,オブジェクト中心のトークンを学習し,ターゲットの意味やシーンの関係を学習する。
これにより、LLMトークンと3Dポイントのミスアライメントが軽減され、イントラクタへのレジリエンスが向上し、LLM内のセマンティックレベルの推論が容易になる。
正確なセグメンテーションのために,LLM-inferredな幾何を持つOcDRトークンとそれに対応する密集した特徴を組み合わせ,パイプライン全体にわたって包括的密集した特徴を保存することでマスクを予測するGeometric Reactivation Decoder (GRD)を導入する。
大規模な実験により、PLMはScanNetv2の+7.3 mIoUとMulti 3D参照セグメンテーションの+6.0 mIoUの大幅な改善を実現し、4つの異なるタスクにまたがる7つのベンチマークで一貫したゲインを達成し、堅牢な3D理解のための包括的なオブジェクト中心の推論の有効性を実証した。
関連論文リスト
- SGS-3D: High-Fidelity 3D Instance Segmentation via Reliable Semantic Mask Splitting and Growing [20.383892902000976]
高忠実度3Dインスタンスセグメンテーション(SGS-3D)のための分割・成長型セマンティックマスクを提案する。
本稿では,3次元幾何学的プリミティブの共起を利用したマスクフィルタリング手法を提案する。
幾何学的洗練のために,空間的連続性と高次特徴を両立させて細粒度オブジェクトインスタンスを構築する。
論文 参考訳(メタデータ) (2025-09-05T14:37:31Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。
我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。
本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文 参考訳(メタデータ) (2025-02-27T12:29:44Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。
被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。
凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。
我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文 参考訳(メタデータ) (2024-04-19T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。