論文の概要: SSR3D-LLM: Structured Spatial Reasoning via Latent Steps for Fine-Grained Grounding in Unified 3D-LLMs
- arxiv url: http://arxiv.org/abs/2605.28490v1
- Date: Wed, 27 May 2026 13:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.088824
- Title: SSR3D-LLM: Structured Spatial Reasoning via Latent Steps for Fine-Grained Grounding in Unified 3D-LLMs
- Title(参考訳): SSR3D-LLM:SSR3D-LLMにおける微細接地のための潜時ステップによる構造的空間共鳴
- Authors: Jiawei Li, Ziyi Liu, Weijie Shi, Long Chen, Jiajie Xu, Xiaofang Zhou,
- Abstract要約: 3Dオブジェクトグラウンドは、自然言語から参照オブジェクトを3Dシーンにローカライズする。
統一インスタンス中心の3D-LLMは、ダイアログ、QA、キャプションと共にグラウンド化を解決することを目的としている。
統一3D-LLMのための構造的接地インタフェースである構造的空間共振3D-LLMを提案する。
- 参考スコア(独自算出の注目度): 20.639795141272394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D object grounding localizes referred objects in a 3D scene from natural language. Unified instance-centric 3D-LLMs aim to solve grounding together with dialog, QA, and captioning, yet many rely on a single pointer-style grounding decision that compresses a relational instruction into one selection. This is brittle for fine-grained queries where multiple same-class candidates must be ruled out by context objects and spatial relations. We propose Structured Spatial Reasoning 3D-LLM (SSR3D-LLM), a structured grounding interface for unified 3D-LLMs. Given fixed Mask3D object proposals, the LLM writes a sequence of latent spatial reasoning steps and memory tokens from the query, and a geometry-aware scorer reads these latent steps in order to refine candidate rankings step by step with step-length masking. The latent steps are learned from standard benchmark target supervision with auxiliary referential-cue supervision during training, while inference uses only the input query and Mask3D proposals. Across ReferIt3D, ScanRefer, and Multi3DRef, SSR3D-LLM achieves the strongest results among unified 3D-LLM baselines, with substantial gains over the single-pointer QPG baseline on fine-grained grounding and consistent improvements over prior unified 3D-LLMs, while preserving the default language-task route.
- Abstract(参考訳): 3Dオブジェクトグラウンドは、自然言語から参照オブジェクトを3Dシーンにローカライズする。
統一されたインスタンス中心の3D-LLMは、ダイアログ、QA、キャプションと共にグラウンド化を解決することを目的としているが、多くの場合、リレーショナル命令を1つの選択に圧縮する単一ポインタスタイルのグラウンド化決定に依存している。
これは、コンテキストオブジェクトと空間関係によって複数の同一クラス候補を除外しなければならない、きめ細かいクエリに対して脆弱である。
本研究では,SSR3D-LLM(Structured Space Reasoning 3D-LLM)を提案する。
固定されたMask3Dオブジェクトの提案が与えられた後、LLMはクエリから潜時空間推論ステップとメモリトークンのシーケンスを書き、ジオメトリ対応スコアラはこれらの潜時ステップを読み、ステップ長マスキングで段階的に候補ランキングを洗練する。
遅延ステップは、トレーニング中の標準ベンチマークターゲット監視と補助参照キュー監視から学習され、推論は入力クエリとMask3D提案のみを使用する。
ReferIt3D、ScanRefer、Multi3DRefの他、SSR3D-LLMは、統一された3D-LLMベースラインの中で最強の結果を得る。
関連論文リスト
- Masking Matters: Unlocking the Spatial Reasoning Capabilities of LLMs for 3D Scene-Language Understanding [37.97359376885946]
3次元空間言語指導マスク(3D-SLIM)は,3次元シーンの空間構造に合わせて,因果マスクを適応的注意マスクに置き換える効果的なマスキング戦略である。
3D-SLIMは単純で、アーキテクチャの変更を必要とせず、余分なパラメータを追加しないが、多様な3Dシーン言語タスク間で大幅なパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2025-12-02T07:22:36Z) - REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting [16.896443736904356]
既存の3Dセグメンテーション手法は、しばしば曖昧で推論に基づく指示を解釈するのに苦労する。
本稿では,オープンワールド推論に基づくセグメンテーションを実現する,革新的なMLLMエージェントフレームワークであるREALMを紹介する。
我々のフレームワークは、オブジェクトの削除、置換、スタイル転送など、様々な3Dインタラクションタスクをシームレスにサポートしています。
論文 参考訳(メタデータ) (2025-10-18T08:53:08Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - 3D-GRES: Generalized 3D Referring Expression Segmentation [77.10044505645064]
3D参照式(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。
一般化された3D参照式(3D-GRES)は、自然言語命令に基づいて任意の数のインスタンスをセグメントする機能を拡張する。
論文 参考訳(メタデータ) (2024-07-30T08:59:05Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。