論文の概要: GenAssets: Generating in-the-wild 3D Assets in Latent Space
- arxiv url: http://arxiv.org/abs/2604.23010v1
- Date: Fri, 24 Apr 2026 20:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.098648
- Title: GenAssets: Generating in-the-wild 3D Assets in Latent Space
- Title(参考訳): GenAssets:最後の宇宙空間で3Dアセットを生成する
- Authors: Ze Yang, Jingkang Wang, Haowei Zhang, Sivabalan Manivasagam, Yun Chen, Raquel Urtasun,
- Abstract要約: 交通参加者のための高品質な3Dアセットは、マルチセンサーシミュレーションに不可欠である。
ワイルドなデータから資産を構築することは、多様性とリアリズムの鍵だ。
そこで本研究では,現在地にあるLiDARとカメラデータから学習する3次元潜時拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 31.627626425629035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality 3D assets for traffic participants are critical for multi-sensor simulation, which is essential for the safe end-to-end development of autonomy. Building assets from in-the-wild data is key for diversity and realism, but existing neural-rendering based reconstruction methods are slow and generate assets that render well only from viewpoints close to the original observations, limiting their usefulness in simulation. Recent diffusion-based generative models build complete and diverse assets, but perform poorly on in-the-wild driving scenes, where observed actors are captured under sparse and limited fields of view, and are partially occluded. In this work, we propose a 3D latent diffusion model that learns on in-the-wild LiDAR and camera data captured by a sensor platform and generates high-quality 3D assets with complete geometry and appearance. Key to our method is a "reconstruct-then-generate" approach that first leverages occlusion-aware neural rendering trained over multiple scenes to build a high-quality latent space for objects, and then trains a diffusion model that operates on the latent space. We show our method outperforms existing reconstruction and generation based methods, unlocking diverse and scalable content creation for simulation.
- Abstract(参考訳): 交通参加者のための高品質な3Dアセットは、安全でエンドツーエンドな自律開発に欠かせないマルチセンサーシミュレーションに不可欠である。
しかし、既存のニューラルレンダリングベースの再構築手法は遅く、元の観測に近い視点からのみうまくレンダリングされる資産を生成し、シミュレーションにおける有用性を制限している。
近年の拡散型生成モデルは、完全で多様な資産を築き上げているが、観察されたアクターが狭い視野と限られた視野で捕獲され、部分的には隠蔽されている、野生の運転シーンでは不十分である。
そこで本研究では,センサプラットフォームが取得したLiDARとカメラデータから学習し,完全な形状と外観で高品質な3Dアセットを生成する3D潜時拡散モデルを提案する。
提案手法の鍵となるのは、まず複数のシーンで訓練されたオクルージョン認識ニューラルレンダリングを活用して、高品質なオブジェクトの潜伏空間を構築し、次に潜伏空間で動作する拡散モデルを訓練する「再構成世代」アプローチである。
提案手法は,既存の再構成と生成に基づく手法よりも優れており,多様なスケーラブルなコンテンツ作成をシミュレーションに利用することができる。
関連論文リスト
- Asset Harvester: Extracting 3D Assets from Autonomous Driving Logs for Simulation [63.01022057888141]
Asset Harvesterはイメージ・ツー・3Dモデルとエンドツーエンドのパイプラインで、実際の運転ログからスパース・イン・ザ・ワン・オブジェクトの観察を完全なシミュレーション可能なアセットに変換する。
SparseViewDiTは、限定角度ビューやその他の実世界のデータ課題に対処するように明示的に設計されている。
論文 参考訳(メタデータ) (2026-04-20T16:20:57Z) - SLAT-Phys: Fast Material Property Field Prediction from Structured 3D Latents [55.26273954022457]
物理に基づくシミュレーション、ロボット工学、デジタルツインジェネレーションにおいて、3Dアセットの材料特性場を推定することが重要である。
本稿では,1枚のRGB画像から空間的に変化する3次元資産の材料特性場を,明示的な3次元再構成なしに直接予測するSLAT-Physを提案する。
論文 参考訳(メタデータ) (2026-03-25T06:14:03Z) - SCPainter: A Unified Framework for Realistic 3D Asset Insertion and Novel View Synthesis [3.614325475261039]
3Dアセット挿入と新しいビュー合成(NVS)は、自律運転シミュレーションの鍵となる要素であり、トレーニングデータの多様性を高める。
本稿では3次元Splat(GS)カーアセット表現と3次元シーンポイントクラウドを拡散ベース生成と統合した統合フレームワークSCPainterを提案する。
3D GSアセットと3D シーンポイントクラウドは、新しいビューに投影され、これらのプロジェクションを使用して、拡散モデルを用いて高品質な画像を生成する。
論文 参考訳(メタデータ) (2025-12-27T21:28:48Z) - R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation [78.26308457952636]
本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。
シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。
R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
論文 参考訳(メタデータ) (2025-06-09T14:50:19Z) - DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。
幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。
テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文 参考訳(メタデータ) (2024-11-03T15:15:01Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。