論文の概要: SyntheOcc: Synthesize Geometric-Controlled Street View Images through 3D Semantic MPIs
- arxiv url: http://arxiv.org/abs/2410.00337v1
- Date: Tue, 1 Oct 2024 02:29:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:16:28.745653
- Title: SyntheOcc: Synthesize Geometric-Controlled Street View Images through 3D Semantic MPIs
- Title(参考訳): SyntheOcc:3DセマンティックMPIによる幾何学的なストリートビュー画像の合成
- Authors: Leheng Li, Weichao Qiu, Yingjie Cai, Xu Yan, Qing Lian, Bingbing Liu, Ying-Cong Chen,
- Abstract要約: SyntheOccは、2次元拡散モデルに対する条件入力として3次元幾何学情報を効率的にエンコードする方法の課題に対処する。
提案手法は,3次元意味的マルチプレーン画像(MPI)を革新的に組み込んで,包括的かつ空間的に整合した3次元シーン記述を提供する。
- 参考スコア(独自算出の注目度): 34.41011015930057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of autonomous driving is increasingly reliant on high-quality annotated datasets, especially in the task of 3D occupancy prediction, where the occupancy labels require dense 3D annotation with significant human effort. In this paper, we propose SyntheOcc, which denotes a diffusion model that Synthesize photorealistic and geometric-controlled images by conditioning Occupancy labels in driving scenarios. This yields an unlimited amount of diverse, annotated, and controllable datasets for applications like training perception models and simulation. SyntheOcc addresses the critical challenge of how to efficiently encode 3D geometric information as conditional input to a 2D diffusion model. Our approach innovatively incorporates 3D semantic multi-plane images (MPIs) to provide comprehensive and spatially aligned 3D scene descriptions for conditioning. As a result, SyntheOcc can generate photorealistic multi-view images and videos that faithfully align with the given geometric labels (semantics in 3D voxel space). Extensive qualitative and quantitative evaluations of SyntheOcc on the nuScenes dataset prove its effectiveness in generating controllable occupancy datasets that serve as an effective data augmentation to perception models.
- Abstract(参考訳): 自動運転の進歩は、高品質な注釈付きデータセット、特に3D占有率予測のタスクにますます依存している。
本稿では,運転シナリオにOccupancyラベルを条件付け,フォトリアリスティックおよび幾何制御画像の合成を行う拡散モデルであるSyntheOccを提案する。
これにより、トレーニング知覚モデルやシミュレーションのようなアプリケーションのために、無制限に多様な、注釈付き、制御可能なデータセットが得られる。
SyntheOccは、2次元拡散モデルに対する条件入力として3次元幾何学情報を効率的にエンコードする方法という重要な課題に対処する。
提案手法は,3次元意味的マルチプレーン画像(MPI)を革新的に組み込んで,コンディショニングのための包括的かつ空間的に整合した3次元シーン記述を提供する。
その結果、SyntheOccは、与えられた幾何学的ラベル(3Dボクセル空間のセマンティックス)と忠実に整合するフォトリアリスティックなマルチビュー画像とビデオを生成することができる。
nuScenesデータセット上のSyntheOccの大規模な質的および定量的評価は、知覚モデルに効果的なデータ拡張として機能する制御可能な占有データセットを生成する上で、その効果を証明している。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data [42.49031063635004]
本研究では,現実的かつ多様な3次元ハンドオブジェクトインタラクションデータを生成するためのHOIDiffusionを提案する。
本モデルは,3次元手対象幾何学構造とテキスト記述を画像合成の入力として用いた条件拡散モデルである。
生成した3Dデータを6次元オブジェクトのポーズ推定学習に適用し,認識システムの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-18T17:48:31Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。