論文の概要: R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation
- arxiv url: http://arxiv.org/abs/2506.07826v1
- Date: Mon, 09 Jun 2025 14:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.006486
- Title: R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation
- Title(参考訳): R3D2:自律運転シミュレーションのための拡散によるリアルな3次元アセット挿入
- Authors: William Ljungbergh, Bernardo Taveira, Wenzhao Zheng, Adam Tonderski, Chensheng Peng, Fredrik Kahl, Christoffer Petersson, Michael Felsberg, Kurt Keutzer, Masayoshi Tomizuka, Wei Zhan,
- Abstract要約: 本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。
シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。
R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
- 参考スコア(独自算出の注目度): 78.26308457952636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Validating autonomous driving (AD) systems requires diverse and safety-critical testing, making photorealistic virtual environments essential. Traditional simulation platforms, while controllable, are resource-intensive to scale and often suffer from a domain gap with real-world data. In contrast, neural reconstruction methods like 3D Gaussian Splatting (3DGS) offer a scalable solution for creating photorealistic digital twins of real-world driving scenes. However, they struggle with dynamic object manipulation and reusability as their per-scene optimization-based methodology tends to result in incomplete object models with integrated illumination effects. This paper introduces R3D2, a lightweight, one-step diffusion model designed to overcome these limitations and enable realistic insertion of complete 3D assets into existing scenes by generating plausible rendering effects-such as shadows and consistent lighting-in real time. This is achieved by training R3D2 on a novel dataset: 3DGS object assets are generated from in-the-wild AD data using an image-conditioned 3D generative model, and then synthetically placed into neural rendering-based virtual environments, allowing R3D2 to learn realistic integration. Quantitative and qualitative evaluations demonstrate that R3D2 significantly enhances the realism of inserted assets, enabling use-cases like text-to-3D asset insertion and cross-scene/dataset object transfer, allowing for true scalability in AD validation. To promote further research in scalable and realistic AD simulation, we will release our dataset and code, see https://research.zenseact.com/publications/R3D2/.
- Abstract(参考訳): 自律運転(AD)システムの検証には、多種多様な安全クリティカルなテストが必要であり、フォトリアリスティックな仮想環境が不可欠である。
従来のシミュレーションプラットフォームは、制御可能であるが、スケールアップにはリソース集約的であり、現実のデータとのドメインギャップに悩まされることが多い。
対照的に、3D Gaussian Splatting(3DGS)のようなニューラルリコンストラクション手法は、現実の運転シーンのフォトリアリスティックなデジタルツインを作るためのスケーラブルなソリューションを提供する。
しかし、各シーンごとの最適化に基づく手法は、照明効果を統合した不完全なオブジェクトモデルをもたらす傾向があるため、動的オブジェクト操作と再使用性に苦慮する。
本稿では,これらの制約を克服し,シャドウや一貫したライティングインリアルタイムなどの可視性レンダリング効果を発生させることにより,既存のシーンに完全な3Dアセットを現実的に挿入できる軽量な1ステップ拡散モデルであるR3D2を紹介する。
3DGSオブジェクトアセットは、画像条件付き3D生成モデルを使用して、線内ADデータから生成され、その後、ニューラルネットワークベースの仮想環境に合成され、R3D2が現実的な統合を学ぶことができる。
定量的および定性的な評価により、R3D2は挿入された資産のリアリズムを著しく向上させ、テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送のようなユースケースを可能にし、ADバリデーションにおける真のスケーラビリティを実現する。
スケーラブルで現実的なADシミュレーションのさらなる研究を促進するため、データセットとコードをリリースします。
関連論文リスト
- RGM: Reconstructing High-fidelity 3D Car Assets with Relightable 3D-GS Generative Model from a Single Image [30.049602796278133]
高品質な3Dカーアセットは、ビデオゲーム、自動運転、バーチャルリアリティーなど、さまざまなアプリケーションに欠かせない。
3Dオブジェクトの表現としてNeRFや3D-GSを利用する現在の3D生成法は、固定照明下でランベルティアンオブジェクトを生成する。
単一入力画像から3Dカー資産を自動生成する新しい3Dオブジェクト生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:54:03Z) - Atlas3D: Physically Constrained Self-Supporting Text-to-3D for Simulation and Fabrication [50.541882834405946]
我々は,テキストから3Dへの自動的実装であるAtlas3Dを紹介する。
提案手法は,新しい微分可能シミュレーションに基づく損失関数と,物理的にインスパイアされた正規化を組み合わせたものである。
我々は、Atlas3Dの有効性を広範囲な生成タスクを通して検証し、シミュレーションと実環境の両方で結果の3Dモデルを検証する。
論文 参考訳(メタデータ) (2024-05-28T18:33:18Z) - WALT3D: Generating Realistic Training Data from Time-Lapse Imagery for Reconstructing Dynamic Objects under Occlusion [20.014258835647716]
本稿では,時間経過画像を用いた閉塞下での動的オブジェクトの大規模で現実的なデータセットを自動的に生成する新しいフレームワークを提案する。
既設の2D(バウンディングボックス、セグメンテーション、キーポイント)と3D(目的、形状)の予測を擬似グラウンドトゥルスとして活用することにより、未禁止の3Dオブジェクトを自動的に識別し、クリップアート形式で背景に合成する。
提案手法は,2次元と3次元の両方の再現において,特に車両や都市部で密集した物体のシナリオにおいて,顕著な改善を示すものである。
論文 参考訳(メタデータ) (2024-03-27T21:24:20Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Recovering and Simulating Pedestrians in the Wild [81.38135735146015]
本研究では,自動車の走行によって野生で捕獲されたセンサから歩行者の形状と動きを復元することを提案する。
再建された歩行者資産銀行をリアルな3Dシミュレーションシステムに組み込む。
シミュレーションしたLiDARデータを用いて,視覚知覚タスクに必要な実世界のデータ量を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2020-11-16T17:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。