論文の概要: Masking Matters: Unlocking the Spatial Reasoning Capabilities of LLMs for 3D Scene-Language Understanding
- arxiv url: http://arxiv.org/abs/2512.02487v1
- Date: Tue, 02 Dec 2025 07:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.765917
- Title: Masking Matters: Unlocking the Spatial Reasoning Capabilities of LLMs for 3D Scene-Language Understanding
- Title(参考訳): マスキングの課題:3次元シーン言語理解のためのLLMの空間推論能力の解き方
- Authors: Yerim Jeon, Miso Lee, WonJun Moon, Jae-Pil Heo,
- Abstract要約: 3次元空間言語指導マスク(3D-SLIM)は,3次元シーンの空間構造に合わせて,因果マスクを適応的注意マスクに置き換える効果的なマスキング戦略である。
3D-SLIMは単純で、アーキテクチャの変更を必要とせず、余分なパラメータを追加しないが、多様な3Dシーン言語タスク間で大幅なパフォーマンス向上をもたらす。
- 参考スコア(独自算出の注目度): 37.97359376885946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 3D scene-language understanding have leveraged Large Language Models (LLMs) for 3D reasoning by transferring their general reasoning ability to 3D multi-modal contexts. However, existing methods typically adopt standard decoders from language modeling, which rely on a causal attention mask. This design introduces two fundamental conflicts in 3D scene understanding: sequential bias among order-agnostic 3D objects and restricted object-instruction attention, hindering task-specific reasoning. To overcome these limitations, we propose 3D Spatial Language Instruction Mask (3D-SLIM), an effective masking strategy that replaces the causal mask with an adaptive attention mask tailored to the spatial structure of 3D scenes. Our 3D-SLIM introduces two key components: a Geometry-adaptive Mask that constrains attention based on spatial density rather than token order, and an Instruction-aware Mask that enables object tokens to directly access instruction context. This design allows the model to process objects based on their spatial relationships while being guided by the user's task. 3D-SLIM is simple, requires no architectural modifications, and adds no extra parameters, yet it yields substantial performance improvements across diverse 3D scene-language tasks. Extensive experiments across multiple benchmarks and LLM baselines validate its effectiveness and underscore the critical role of decoder design in 3D multi-modal reasoning.
- Abstract(参考訳): 近年の3Dシーン言語理解の進歩は,Large Language Models (LLMs) を3D推論に活用し,一般的な推論能力を3Dマルチモーダルな文脈に移行させている。
しかし、既存のメソッドは通常、因果注意マスクに依存する言語モデリングから標準デコーダを採用する。
本設計では,3次元シーン理解における基本的対立として,順序に依存しない3次元オブジェクト間の逐次バイアスと,対象命令の注意を制限し,タスク固有の推論を妨げている。
これらの制約を克服するために,3次元空間言語指導マスク(3D-SLIM)を提案する。
我々の3D-SLIMは、トークンの順序ではなく空間密度に基づいて注意を拘束する幾何適応型マスクと、オブジェクトトークンが命令コンテキストに直接アクセスできるようにする命令対応マスクの2つの重要なコンポーネントを導入している。
この設計により、モデルは、ユーザのタスクによってガイドされながら、それらの空間的関係に基づいてオブジェクトを処理できる。
3D-SLIMは単純で、アーキテクチャの変更を必要とせず、余分なパラメータを追加しないが、多様な3Dシーン言語タスク間で大幅なパフォーマンス向上をもたらす。
複数のベンチマークとLCMベースラインにわたる大規模な実験は、その有効性を検証し、3次元マルチモーダル推論におけるデコーダ設計の重要な役割を強調している。
関連論文リスト
- CORE-3D: Context-aware Open-vocabulary Retrieval by Embeddings in 3D [0.0]
3Dシーンの理解は、AIとロボティクスの具体化の基礎であり、インタラクションとナビゲーションの信頼性をサポートする。
近年のアプローチでは、視覚言語モデル(VLM)により生成された2次元クラス非依存マスクに埋め込みベクトルを割り当てることで、ゼロショットでオープンな3Dセマンティックマッピングを実現している。
プログレッシブな粒度改善を施したセマンティックSAMを用いて、より正確で多数のオブジェクトレベルのマスクを生成する。
論文 参考訳(メタデータ) (2025-09-29T09:43:00Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。
被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。