論文の概要: Scenes as Tokens: Multi-Scale Normal Distributions Transform Tokenizer for General 3D Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2511.21191v1
- Date: Wed, 26 Nov 2025 09:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.031211
- Title: Scenes as Tokens: Multi-Scale Normal Distributions Transform Tokenizer for General 3D Vision-Language Understanding
- Title(参考訳): Tokensとしてのシーン:汎用3Dビジョンランゲージ理解のためのマルチスケール正規分布変換Tokenizer
- Authors: Yutao Tang, Cheng Zhao, Gaurav Mittal, Rohith Kukkala, Rama Chellappa, Cheng Peng, Mei Chen,
- Abstract要約: 我々は,人間のインタラクションを自然に支援しながら,幅広い3Dシーン理解タスクを行う3D VLMであるNDTokenizer3Dを提案する。
このアプローチのコアは,NDT(Multi-Scale Normal Distributions Transform)表現に基づいて構築された,新しい3段階のシーントークン化パイプラインである。
NDTokenizer3Dは、まず、生高解像度の点雲からマルチスケールのNDT表現を構築し、大域的コンテキストと微粒な幾何学的詳細の両方を保存する。
- 参考スコア(独自算出の注目度): 39.18256367776712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 3D vision-language models (VLMs) highlight a strong potential for 3D scene understanding and reasoning. However, effectively tokenizing 3D scenes into holistic scene tokens, and leveraging these tokens across diverse 3D understanding tasks, remain highly challenging. We present NDTokenizer3D, a generalist 3D VLM that performs a wide range of 3D scene understanding tasks while naturally supporting human interactions, thereby bridging language-level reasoning with 3D spatial understanding. The core of our approach is a novel three-stage scene tokenization pipeline built upon a Multi-Scale Normal Distributions Transform (NDT) representation, paired with a Multi-Scale NDT Decoder (MSDec). Specifically, NDTokenizer3D first constructs a multi-scale NDT representation from raw high-resolution point clouds, preserving both global context and fine-grained geometric details. Next, the MSDec progressively fuses cross-scale NDT features, producing holistic scene tokens consumable by LLM endpoints. Beyond tokenization, MSDec is repurposed as a general interface for human-interactive prompting (points, boxes, masks) and segmentation-mask decoding, unifying diverse 3D scene understanding tasks within a single architecture. With this compact and unified design, NDTokenizer3D offers a fine-grained, general-purpose 3D VLM, achieving remarkable improvements in 3D Referring Segmentation, 3D Visual Question Answering, and 3D Dense Captioning.
- Abstract(参考訳): 近年の3次元視覚言語モデル(VLM)の進歩は、3次元シーン理解と推論の強力な可能性を示している。
しかし、効果的に3Dシーンを全体的シーントークンにトークン化し、様々な3D理解タスクでこれらのトークンを活用することは、非常に難しいままである。
NDTokenizer3Dは、人間のインタラクションを自然に支援しながら、幅広い3Dシーン理解タスクを実行し、3D空間理解による言語レベルの推論をブリッジする汎用3D VLMである。
提案手法のコアとなるのは,NDT(Multi-Scale Normal Distributions Transform)表現上に構築された,新しい3段階のシーントークン化パイプラインで,MSDec(Multi-Scale NDT Decoder)と組み合わせたものだ。
具体的には、NDTokenizer3Dは、まず、生の高解像度の点雲からマルチスケールのNDT表現を構築し、大域的コンテキストと微粒な幾何学的詳細の両方を保存する。
次に、MSDecはクロススケールなNDT機能を徐々に融合させ、LCMエンドポイントで消費可能な全体的シーントークンを生成する。
トークン化以外にも、MSDecは人間の対話的プロンプト(ポイント、ボックス、マスク)とセグメンテーションマスクデコードのための汎用インターフェースとして再利用され、単一のアーキテクチャ内で多様な3Dシーン理解タスクを統一する。
このコンパクトで統一された設計により、NDTokenizer 3Dは細粒度で汎用的な3D VLMを提供し、3D参照セグメンテーション、3Dビジュアル質問応答、3D Dense Captioningを著しく改善した。
関連論文リスト
- Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - Inst3D-LMM: Instance-Aware 3D Scene Understanding with Multi-modal Instruction Tuning [18.185457833299235]
本稿では,複数の3次元シーン理解タスクを同時に扱うために,インスタンス対応3次元大規模マルチモーダルモデル(Inst3D-LMM)を提案する。
まず,MCMF(Multi-view Cross-Modal Fusion)モジュールを導入し,それに対応する幾何学的特徴に多視点2Dセマンティクスを注入する。
シーンレベルの関係対応トークンに対しては、オブジェクト間の複雑な対空間関係をキャプチャするための3次元インスタンス空間関係(3D-ISR)モジュールをさらに提示する。
論文 参考訳(メタデータ) (2025-03-01T14:38:42Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding,
Reasoning, and Planning [42.61001274381612]
LL3DA(Large Language 3D Assistant)は、ポイントクラウドを直接入力とし、テキストインストラクションとビジュアルプロンプトの両方に応答する。
実験の結果,LL3DAは3Dキャプションと3D質問応答の両方において,様々な3次元視覚言語モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。