論文の概要: GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation
- arxiv url: http://arxiv.org/abs/2512.23180v1
- Date: Mon, 29 Dec 2025 03:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.397851
- Title: GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation
- Title(参考訳): GaussianDWM: 統一シーン理解とマルチモーダル生成のための3次元ガウス駆動世界モデル
- Authors: Tianchen Deng, Xuefeng Chen, Yi Chen, Qu Chen, Yuyao Xu, Lijin Yang, Le Xu, Yu Zhang, Bo Zhang, Wuxiong Huang, Hesheng Wang,
- Abstract要約: 本稿では,3次元ガウスシーン表現に基づく新しい統合運転世界モデルフレームワークを提案する。
提案手法は,各ガウス語原始語にリッチ言語的特徴を埋め込むことにより,テキスト情報を3Dシーンと直接整合させる。
さらに,冗長な3Dガウスを除去し,高精度でコンパクトな3DトークンをLSMに注入するタスク対応言語誘導サンプリング戦略を設計する。
- 参考スコア(独自算出の注目度): 27.566010743301675
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Driving World Models (DWMs) have been developing rapidly with the advances of generative models. However, existing DWMs lack 3D scene understanding capabilities and can only generate content conditioned on input data, without the ability to interpret or reason about the driving environment. Moreover, current approaches represent 3D spatial information with point cloud or BEV features do not accurately align textual information with the underlying 3D scene. To address these limitations, we propose a novel unified DWM framework based on 3D Gaussian scene representation, which enables both 3D scene understanding and multi-modal scene generation, while also enabling contextual enrichment for understanding and generation tasks. Our approach directly aligns textual information with the 3D scene by embedding rich linguistic features into each Gaussian primitive, thereby achieving early modality alignment. In addition, we design a novel task-aware language-guided sampling strategy that removes redundant 3D Gaussians and injects accurate and compact 3D tokens into LLM. Furthermore, we design a dual-condition multi-modal generation model, where the information captured by our vision-language model is leveraged as a high-level language condition in combination with a low-level image condition, jointly guiding the multi-modal generation process. We conduct comprehensive studies on the nuScenes, and NuInteract datasets to validate the effectiveness of our framework. Our method achieves state-of-the-art performance. We will release the code publicly on GitHub https://github.com/dtc111111/GaussianDWM.
- Abstract(参考訳): ドライビング・ワールド・モデル(DWM)は、生成モデルの発展とともに急速に発展してきた。
しかし、既存のDWMには3Dシーン理解機能がなく、運転環境を解釈したり推論したりすることなく、入力データに条件付きコンテンツしか生成できない。
さらに,3次元空間情報をポイントクラウドやBEVの特徴で表現する現在の手法では,テキスト情報を基礎となる3次元シーンと正確に一致させることができない。
これらの制約に対処するために,3次元ガウスシーン表現に基づく新しい統合DWMフレームワークを提案する。
提案手法は,各ガウス語原始語にリッチ言語的特徴を埋め込むことで,テキスト情報を3Dシーンと直接整合させ,早期のモダリティアライメントを実現する。
さらに,冗長な3Dガウスを除去し,高精度でコンパクトな3DトークンをLSMに注入するタスク対応言語誘導サンプリング戦略を設計する。
さらに、視覚言語モデルによって得られた情報を低レベル画像条件と組み合わせて高レベル言語条件として活用し、マルチモーダル生成プロセスを共同指導するデュアル条件マルチモーダル生成モデルを設計する。
我々は,NuSceneとNuInteractデータセットに関する包括的な研究を行い,フレームワークの有効性を検証する。
本手法は最先端の性能を実現する。
コードをGitHub https://github.com/dtc1111/GaussianDWMで公開します。
関連論文リスト
- A Study of the Framework and Real-World Applications of Language Embedding for 3D Scene Understanding [2.934809709666499]
Gaussian Splattingはリアルタイム3Dシーン表現の変換技術として登場した。
複雑なシーンを高い忠実度でレンダリングする能力は、シーン再構築、ロボティクス、インタラクティブなコンテンツ作成といった領域をまたいだ進歩を可能にした。
本調査では,言語指導と3次元ガウススプラッティングを組み合わせた最近の研究成果について概説する。
論文 参考訳(メタデータ) (2025-08-07T06:33:08Z) - GaussianVLM: Scene-centric 3D Vision-Language Models using Language-aligned Gaussian Splats for Embodied Reasoning and Beyond [56.677984098204696]
マルチモーダル言語モデルは、VLM(3D Vision-Language Models)の開発を推進している
本稿では,言語とタスク認識のシーン表現を用いた3次元ガウシアンスプラットシーンのためのシーン中心の3次元VLMを提案する。
本稿では,標準RGB画像から導出した光リアルな3D表現を利用した最初のガウススプラッティングに基づくVLMを提案する。
論文 参考訳(メタデータ) (2025-07-01T15:52:59Z) - Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation [51.36926306499593]
Prometheusはオブジェクトレベルとシーンレベルの両方を秒単位でテキストから3D生成するための3D対応潜時拡散モデルである。
遅延拡散パラダイムにおいて、3Dシーン生成を多視点, フィードフォワード, ピクセルアラインな3Dガウス生成として定式化する。
論文 参考訳(メタデータ) (2024-12-30T17:44:23Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキストから3Dシーンを生成するDreamScapeを提案する。
LLMを用いたテキストから意味的プリミティブ、空間変換、関係をエンコードする3Dガウスガイドを使用する。
DreamScapeは最先端のパフォーマンスを実現し、高忠実でコントロール可能な3Dシーン生成を可能にする。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues [68.76032126906743]
私たちは、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。
SMO(Structured Multimodal Organizer)は、複数のビューと階層的なテキストによる視覚言語表現の強化である。
我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
論文 参考訳(メタデータ) (2023-10-14T06:13:20Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。