論文の概要: UniScene: Unified Occupancy-centric Driving Scene Generation
- arxiv url: http://arxiv.org/abs/2412.05435v1
- Date: Fri, 06 Dec 2024 21:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:29.542590
- Title: UniScene: Unified Occupancy-centric Driving Scene Generation
- Title(参考訳): UniScene:統合運転中心の運転シーン生成
- Authors: Bohan Li, Jiazhe Guo, Hongsi Liu, Yingshuang Zou, Yikang Ding, Xiwu Chen, Hu Zhu, Feiyang Tan, Chi Zhang, Tiancai Wang, Shuchang Zhou, Li Zhang, Xiaojuan Qi, Hao Zhao, Mu Yang, Wenjun Zeng, Xin Jin,
- Abstract要約: UniSceneは3つの重要なデータ形式(セマンティック占有率、ビデオ、LiDAR)を生成するための最初の統一フレームワークである。
UniSceneは、シーン生成の複雑なタスクを2つの階層的なステップに分解するプログレッシブな生成プロセスを採用している。
大規模な実験により、UniSceneは、占有率、ビデオ、LiDAR生成において、以前のSOTAよりも優れていたことが示されている。
- 参考スコア(独自算出の注目度): 73.22859345600192
- License:
- Abstract: Generating high-fidelity, controllable, and annotated training data is critical for autonomous driving. Existing methods typically generate a single data form directly from a coarse scene layout, which not only fails to output rich data forms required for diverse downstream tasks but also struggles to model the direct layout-to-data distribution. In this paper, we introduce UniScene, the first unified framework for generating three key data forms - semantic occupancy, video, and LiDAR - in driving scenes. UniScene employs a progressive generation process that decomposes the complex task of scene generation into two hierarchical steps: (a) first generating semantic occupancy from a customized scene layout as a meta scene representation rich in both semantic and geometric information, and then (b) conditioned on occupancy, generating video and LiDAR data, respectively, with two novel transfer strategies of Gaussian-based Joint Rendering and Prior-guided Sparse Modeling. This occupancy-centric approach reduces the generation burden, especially for intricate scenes, while providing detailed intermediate representations for the subsequent generation stages. Extensive experiments demonstrate that UniScene outperforms previous SOTAs in the occupancy, video, and LiDAR generation, which also indeed benefits downstream driving tasks.
- Abstract(参考訳): 高忠実度、制御可能、および注釈付きトレーニングデータを生成することは、自動運転に不可欠である。
既存のメソッドは通常、粗いシーンレイアウトから直接単一のデータフォームを生成し、様々な下流タスクに必要なリッチなデータフォームを出力するだけでなく、レイアウトからデータへの直接分布をモデル化するのに苦労する。
本稿では,3つの重要なデータ形式(セマンティック占有,ビデオ,LiDAR)を生成するための最初の統合フレームワークであるUniSceneを紹介する。
UniSceneは、シーン生成の複雑なタスクを2つの階層的なステップに分解するプログレッシブな生成プロセスを採用している。
(a)まず、意味的・幾何学的情報に富んだメタシーン表現として、カスタマイズされたシーンレイアウトから意味的占有を生成する。
b) 映像データとLiDARデータを生成し, ガウスをベースとしたジョイントレンダリングと事前誘導スパースモデリングの2つの新しいトランスファー戦略を用いて, 占領条件を定め, 映像データとLiDARデータを生成する。
この占有中心のアプローチは、特に複雑なシーンにおいて、生成の負担を軽減すると同時に、その後の生成段階で詳細な中間表現を提供する。
大規模な実験では、UniSceneは以前のSOTAよりも占領、ビデオ、LiDAR生成に優れており、これは下流での運転にも効果がある。
関連論文リスト
- WeatherDG: LLM-assisted Procedural Weather Generation for Domain-Generalized Semantic Segmentation [4.141230571282547]
本研究では,現実的な,天気の多様性,運転画面の画像を生成するための新しいアプローチであるWeatherDGを提案する。
まず、ソースデータでSDを微調整し、生成されたサンプルの内容とレイアウトを現実世界の運転シナリオに合わせる。
我々は,様々な気象条件下で,SDが高度に調整されたクラスのオブジェクトを生成することを奨励するバランスのとれた生成戦略を導入する。
論文 参考訳(メタデータ) (2024-10-15T21:29:26Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - RT-GS2: Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields [6.071025178912125]
ガウススプラッティングを用いた最初の一般化可能なセマンティックセマンティックセグメンテーション法であるRT-GS2を紹介する。
提案手法は27.03 FPSのリアルタイム性能を実現し,既存の手法に比べて901倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-28T10:34:28Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models [37.788957749123725]
共同シーングラフ - 画像生成という,新しい生成タスクを提案する。
本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
論文 参考訳(メタデータ) (2024-01-02T10:10:29Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。