論文の概要: A Self-Conditioned Representation Guided Diffusion Model for Realistic Text-to-LiDAR Scene Generation
- arxiv url: http://arxiv.org/abs/2511.19004v1
- Date: Mon, 24 Nov 2025 11:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.178219
- Title: A Self-Conditioned Representation Guided Diffusion Model for Realistic Text-to-LiDAR Scene Generation
- Title(参考訳): 実写テキスト-LiDARシーン生成のための自己記述型表現誘導拡散モデル
- Authors: Wentao Qu, Guofeng Mei, Yang Wu, Yongshun Gong, Xiaoshui Huang, Liang Xiao,
- Abstract要約: テキストからLiDAR生成は、下流タスクのためにリッチな構造と多様なシーンで3Dデータをカスタマイズできる。
しかし、Text-LiDARペアの不足は、トレーニング前の不足を招き、過度にスムーズな3Dシーンを生成することが多い。
SCRG(Self-Conditioned Representation Guidance)を用いたシーン生成のためのテキスト対LiDAR拡散モデルT2LDMを提案する。
- 参考スコア(独自算出の注目度): 41.43267776407459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-LiDAR generation can customize 3D data with rich structures and diverse scenes for downstream tasks. However, the scarcity of Text-LiDAR pairs often causes insufficient training priors, generating overly smooth 3D scenes. Moreover, low-quality text descriptions may degrade generation quality and controllability. In this paper, we propose a Text-to-LiDAR Diffusion Model for scene generation, named T2LDM, with a Self-Conditioned Representation Guidance (SCRG). Specifically, SCRG, by aligning to the real representations, provides the soft supervision with reconstruction details for the Denoising Network (DN) in training, while decoupled in inference. In this way, T2LDM can perceive rich geometric structures from data distribution, generating detailed objects in scenes. Meanwhile, we construct a content-composable Text-LiDAR benchmark, T2nuScenes, along with a controllability metric. Based on this, we analyze the effects of different text prompts for LiDAR generation quality and controllability, providing practical prompt paradigms and insights. Furthermore, a directional position prior is designed to mitigate street distortion, further improving scene fidelity. Additionally, by learning a conditional encoder via frozen DN, T2LDM can support multiple conditional tasks, including Sparse-to-Dense, Dense-to-Sparse, and Semantic-to-LiDAR generation. Extensive experiments in unconditional and conditional generation demonstrate that T2LDM outperforms existing methods, achieving state-of-the-art scene generation.
- Abstract(参考訳): テキストからLiDAR生成は、下流タスクのためにリッチな構造と多様なシーンで3Dデータをカスタマイズできる。
しかし、Text-LiDARペアの不足は、トレーニング前の不足を招き、過度にスムーズな3Dシーンを生成することが多い。
さらに、低品質のテキスト記述は、生成品質と制御性を低下させる可能性がある。
本稿では,SCRG(Self-Conditioned Representation Guidance)を用いたシーン生成のためのテキスト対LiDAR拡散モデルを提案する。
具体的には、SCRGは、実際の表現に合わせることで、トレーニングにおいてDN(Denoising Network)の再構築の詳細をソフト・インスペクションに提供し、推論において分離する。
このようにして、T2LDMはデータ分布からリッチな幾何学的構造を知覚し、シーン内で詳細なオブジェクトを生成する。
一方,コンテントコンポーザブルなText-LiDARベンチマークT2nuScenesと可制御性指標を構築した。
そこで本研究では,LiDAR生成品質と制御性に及ぼす異なるテキストプロンプトの影響を解析し,実用的なプロンプトパラダイムとインサイトを提供する。
さらに、道路の歪みを緩和し、さらにシーンの忠実度を向上させるために、事前の方向位置を設計する。
さらに、凍結DNを介して条件エンコーダを学習することにより、T2LDMはSparse-to-Dense、Dense-to-Sparse、Semantic-to-LiDAR生成など、複数の条件タスクをサポートすることができる。
非条件および条件生成における広範囲な実験により、T2LDMは既存の手法よりも優れ、最先端のシーン生成を実現していることが示された。
関連論文リスト
- Learning to Generate 4D LiDAR Sequences [28.411253849111755]
本稿では,自由形式言語を編集可能なLiDARシーケンスに変換する統一フレームワークLiDARCrafterを提案する。
LiDARCrafterは最先端の忠実さ、コントロール可能性、時間的一貫性を実現し、LiDARベースのシミュレーションとデータ拡張の基礎を提供する。
論文 参考訳(メタデータ) (2025-09-15T14:14:48Z) - LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences [28.411253849111755]
LiDARCrafterは、4D LiDARの生成と編集のための統一されたフレームワークである。
あらゆるレベルの忠実さ、可制御性、時間的一貫性において、最先端のパフォーマンスを達成する。
コードとベンチマークはコミュニティにリリースされている。
論文 参考訳(メタデータ) (2025-08-05T17:59:56Z) - La La LiDAR: Large-Scale Layout Generation from LiDAR Data [45.5317990948996]
現実的なLiDARシーンの制御可能な生成は、自律運転やロボット工学といった応用に不可欠である。
レイアウト誘導型大規模LiDAR生成モデル(La La LiDAR)を提案する。
La La LiDARは、LiDAR生成と下流認識の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-05T17:59:55Z) - Layout2Scene: 3D Semantic Layout Guided Scene Generation via Geometry and Appearance Diffusion Priors [52.63385546943866]
本稿では,3次元オブジェクト位置の正確な制御をインジェクションするプロンプトとして,追加のセマンティックレイアウトを用いたテキスト・ツー・シーン生成手法(Layout2Scene)を提案する。
幾何学および外見生成における2次元拡散先行をフル活用するために,意味誘導幾何拡散モデルと意味誘導幾何誘導拡散モデルを導入する。
我々の手法は、最先端のアプローチに比べて、より可塑性でリアルなシーンを生成することができる。
論文 参考訳(メタデータ) (2025-01-05T12:20:13Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - LiDAR-GS:Real-time LiDAR Re-Simulation using Gaussian Splatting [53.58528891081709]
都市景観におけるLiDARスキャンをリアルタイムかつ高忠実に再現するLiDAR-GSを提案する。
この手法は,公開可能な大規模シーンデータセットのレンダリングフレームレートと品質の両面において,最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-07T15:07:56Z) - Text2LiDAR: Text-guided LiDAR Point Cloud Generation via Equirectangular Transformer [38.18396501696647]
テキスト制御可能なLiDARデータ生成モデルであるText2LiDARを提案する。
我々は、LiDAR特徴を捉えるために、設計した等方形アテンションを利用して、等方形トランスアーキテクチャを設計する。
我々は850のシーンから34,149個のLiDAR点雲に対して多様なテキスト記述子を提供するnuLiDARtextを構築した。
論文 参考訳(メタデータ) (2024-07-29T01:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。