論文の概要: Asset Harvester: Extracting 3D Assets from Autonomous Driving Logs for Simulation
- arxiv url: http://arxiv.org/abs/2604.18468v1
- Date: Mon, 20 Apr 2026 16:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.990259
- Title: Asset Harvester: Extracting 3D Assets from Autonomous Driving Logs for Simulation
- Title(参考訳): Asset Harvester:シミュレーションのための自動運転ログから3Dアセットを抽出する
- Authors: Tianshi Cao, Jiawei Ren, Yuxuan Zhang, Jaewoo Seo, Jiahui Huang, Shikhar Solanki, Haotian Zhang, Mingfei Guo, Haithem Turki, Muxingzi Li, Yue Zhu, Sipeng Zhang, Zan Gojcic, Sanja Fidler, Kangxue Yin,
- Abstract要約: Asset Harvesterはイメージ・ツー・3Dモデルとエンドツーエンドのパイプラインで、実際の運転ログからスパース・イン・ザ・ワン・オブジェクトの観察を完全なシミュレーション可能なアセットに変換する。
SparseViewDiTは、限定角度ビューやその他の実世界のデータ課題に対処するように明示的に設計されている。
- 参考スコア(独自算出の注目度): 63.01022057888141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Closed-loop simulation is a core component of autonomous vehicle (AV) development, enabling scalable testing, training, and safety validation before real-world deployment. Neural scene reconstruction converts driving logs into interactive 3D environments for simulation, but it does not produce complete 3D object assets required for agent manipulation and large-viewpoint novel-view synthesis. To address this challenge, we present Asset Harvester, an image-to-3D model and end-to-end pipeline that converts sparse, in-the-wild object observations from real driving logs into complete, simulation-ready assets. Rather than relying on a single model component, we developed a system-level design for real-world AV data that combines large-scale curation of object-centric training tuples, geometry-aware preprocessing across heterogeneous sensors, and a robust training recipe that couples sparse-view-conditioned multiview generation with 3D Gaussian lifting. Within this system, SparseViewDiT is explicitly designed to address limited-angle views and other real-world data challenges. Together with hybrid data curation, augmentation, and self-distillation, this system enables scalable conversion of sparse AV object observations into reusable 3D assets.
- Abstract(参考訳): クローズドループシミュレーションは、実際の展開前にスケーラブルなテスト、トレーニング、安全性検証を可能にする、自動運転車(AV)開発のコアコンポーネントである。
ニューラルシーン再構成は,運転ログをシミュレーションのためにインタラクティブな3D環境に変換するが,エージェント操作や大視点のノベルビュー合成に必要な完全な3Dオブジェクト資産は生成しない。
この課題に対処するため,実走行ログからスパースな物体の観察をシミュレーション可能な完全な資産に変換する,イメージ・ツー・3DモデルとエンドツーエンドパイプラインであるAsset Harvesterを紹介した。
単一モデルコンポーネントに頼るのではなく、オブジェクト中心のトレーニングタプルの大規模キュレーション、異種センサ間の幾何認識前処理、疎ビュー条件付きマルチビュー生成と3Dガウスリフトを結合した堅牢なトレーニングレシピを組み合わせた実世界のAVデータのためのシステムレベル設計を開発した。
このシステム内では、SparseViewDiTは限定角度ビューやその他の実世界のデータ課題に対処するように明示的に設計されている。
このシステムは、ハイブリッドデータキュレーション、拡張、自己蒸留とともに、スパースAV観測のスケーラブルな3Dアセットへの変換を可能にする。
関連論文リスト
- SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM [14.374484080984423]
本稿では,部分レベルの分解と運動予測を共同で行う統合MLLMフレームワークであるSIMARTを提案する。
Sparse 3D VQ-VAEを導入することで、SIMARTは、密度の高いボクセルトークンに対してトークン数を70%削減し、高忠実なマルチパーツアセンブリを可能にする。
論文 参考訳(メタデータ) (2026-03-24T16:16:52Z) - URDF-Anything+: Autoregressive Articulated 3D Models Generation for Physical Simulation [45.4820195450296]
本稿では,視覚的観察から実行可能なオブジェクトモデルを直接生成する,エンドツーエンドの自動回帰フレームワークを提案する。
視覚的観察から構築された高忠実度デジタル双生児は、シミュレーションで訓練されたポリシーを、オンライン適応なしで実際のロボットに転送することができる。
論文 参考訳(メタデータ) (2026-03-14T16:23:44Z) - SCPainter: A Unified Framework for Realistic 3D Asset Insertion and Novel View Synthesis [3.614325475261039]
3Dアセット挿入と新しいビュー合成(NVS)は、自律運転シミュレーションの鍵となる要素であり、トレーニングデータの多様性を高める。
本稿では3次元Splat(GS)カーアセット表現と3次元シーンポイントクラウドを拡散ベース生成と統合した統合フレームワークSCPainterを提案する。
3D GSアセットと3D シーンポイントクラウドは、新しいビューに投影され、これらのプロジェクションを使用して、拡散モデルを用いて高品質な画像を生成する。
論文 参考訳(メタデータ) (2025-12-27T21:28:48Z) - Particulate: Feed-Forward 3D Object Articulation [89.78788418174946]
Particulateは、毎日のオブジェクトの1つの静的3Dメッシュが与えられたフィードフォワードアプローチであり、基盤となる関節構造のすべての属性を直接推論する。
私たちは、公開データセットから多種多様な3Dアセットの集合に基づいて、ネットワークのエンドツーエンドをトレーニングします。
推論中、Particulateはネットワークのフィードフォワード予測を入力メッシュに持ち上げ、完全に調音された3Dモデルを数秒で生成する。
論文 参考訳(メタデータ) (2025-12-12T18:59:51Z) - R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation [78.26308457952636]
本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。
シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。
R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
論文 参考訳(メタデータ) (2025-06-09T14:50:19Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - Transferable Active Grasping and Real Embodied Dataset [48.887567134129306]
ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。
現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。
本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。