論文の概要: UniScene: Unified Occupancy-centric Driving Scene Generation
- arxiv url: http://arxiv.org/abs/2412.05435v2
- Date: Tue, 11 Mar 2025 12:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 16:15:11.982891
- Title: UniScene: Unified Occupancy-centric Driving Scene Generation
- Title(参考訳): UniScene:統合運転中心の運転シーン生成
- Authors: Bohan Li, Jiazhe Guo, Hongsi Liu, Yingshuang Zou, Yikang Ding, Xiwu Chen, Hu Zhu, Feiyang Tan, Chi Zhang, Tiancai Wang, Shuchang Zhou, Li Zhang, Xiaojuan Qi, Hao Zhao, Mu Yang, Wenjun Zeng, Xin Jin,
- Abstract要約: UniSceneは3つの重要なデータ形式(セマンティック占有率、ビデオ、LiDAR)を生成するための最初の統一フレームワークである。
UniSceneは、シーン生成の複雑なタスクを2つの階層的なステップに分解するプログレッシブな生成プロセスを採用している。
大規模な実験により、UniSceneは、占有率、ビデオ、LiDAR生成において、以前のSOTAよりも優れていたことが示されている。
- 参考スコア(独自算出の注目度): 73.22859345600192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-fidelity, controllable, and annotated training data is critical for autonomous driving. Existing methods typically generate a single data form directly from a coarse scene layout, which not only fails to output rich data forms required for diverse downstream tasks but also struggles to model the direct layout-to-data distribution. In this paper, we introduce UniScene, the first unified framework for generating three key data forms - semantic occupancy, video, and LiDAR - in driving scenes. UniScene employs a progressive generation process that decomposes the complex task of scene generation into two hierarchical steps: (a) first generating semantic occupancy from a customized scene layout as a meta scene representation rich in both semantic and geometric information, and then (b) conditioned on occupancy, generating video and LiDAR data, respectively, with two novel transfer strategies of Gaussian-based Joint Rendering and Prior-guided Sparse Modeling. This occupancy-centric approach reduces the generation burden, especially for intricate scenes, while providing detailed intermediate representations for the subsequent generation stages. Extensive experiments demonstrate that UniScene outperforms previous SOTAs in the occupancy, video, and LiDAR generation, which also indeed benefits downstream driving tasks. Project page: https://arlo0o.github.io/uniscene/
- Abstract(参考訳): 高忠実度、制御可能、および注釈付きトレーニングデータを生成することは、自動運転に不可欠である。
既存のメソッドは通常、粗いシーンレイアウトから直接単一のデータフォームを生成し、様々な下流タスクに必要なリッチなデータフォームを出力するだけでなく、レイアウトからデータへの直接分布をモデル化するのに苦労する。
本稿では,3つの重要なデータ形式(セマンティック占有,ビデオ,LiDAR)を生成するための最初の統合フレームワークであるUniSceneを紹介する。
UniSceneは、シーン生成の複雑なタスクを2つの階層的なステップに分解するプログレッシブな生成プロセスを採用している。
(a)まず、意味的・幾何学的情報に富んだメタシーン表現として、カスタマイズされたシーンレイアウトから意味的占有を生成する。
b) 映像データとLiDARデータを生成し, ガウスをベースとしたジョイントレンダリングと事前誘導スパースモデリングの2つの新しいトランスファー戦略を用いて, 占領条件を定め, 映像データとLiDARデータを生成する。
この占有中心のアプローチは、特に複雑なシーンにおいて、生成の負担を軽減すると同時に、その後の生成段階で詳細な中間表現を提供する。
大規模な実験では、UniSceneは以前のSOTAよりも占領、ビデオ、LiDAR生成に優れており、これは下流での運転にも効果がある。
プロジェクトページ: https://arlo0o.github.io/uniscene/
関連論文リスト
- Layout2Scene: 3D Semantic Layout Guided Scene Generation via Geometry and Appearance Diffusion Priors [52.63385546943866]
本稿では,3次元オブジェクト位置の正確な制御をインジェクションするプロンプトとして,追加のセマンティックレイアウトを用いたテキスト・ツー・シーン生成手法(Layout2Scene)を提案する。
幾何学および外見生成における2次元拡散先行をフル活用するために,意味誘導幾何拡散モデルと意味誘導幾何誘導拡散モデルを導入する。
我々の手法は、最先端のアプローチに比べて、より可塑性でリアルなシーンを生成することができる。
論文 参考訳(メタデータ) (2025-01-05T12:20:13Z) - LiHi-GS: LiDAR-Supervised Gaussian Splatting for Highway Driving Scene Reconstruction [6.428928591765432]
Gaussian Splatting (GS)は、シーンの3Dガウス表現を明示してリアルタイムレンダリングを容易にする。
GSは暗黙のニューラルレイディアンスフィールド(NeRF)よりも高速な処理と直感的なシーン編集を提供する
動的シーン合成と編集のための新しいGS法を提案し,LiDARの監督とLiDARレンダリングのサポートを通じてシーン再構成を改善した。
論文 参考訳(メタデータ) (2024-12-19T22:59:55Z) - SSEditor: Controllable Mask-to-Scene Generation with Diffusion Model [8.664947484778486]
SSEditorはコントロール可能なセマンティックシーンエディタで、複数のステップを再サンプリングすることなく特定のターゲットカテゴリを生成することができる。
第2段階では、幾何学的・意味的な情報を学習するモデルの能力を高める幾何学的・意味的融合モジュールを導入する。
未確認のOcc-3Dデータセットの実験は、SSEditorが新しい都市シーンを生成することができることを示している。
論文 参考訳(メタデータ) (2024-11-19T07:19:05Z) - MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models [37.788957749123725]
共同シーングラフ - 画像生成という,新しい生成タスクを提案する。
本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
論文 参考訳(メタデータ) (2024-01-02T10:10:29Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。