Fugu-MT 論文翻訳(概要): Unposed-to-3D: Learning Simulation-Ready Vehicles from Real-World Images

論文の概要: Unposed-to-3D: Learning Simulation-Ready Vehicles from Real-World Images

arxiv url: http://arxiv.org/abs/2604.19257v1
Date: Tue, 21 Apr 2026 09:20:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.698771
Title: Unposed-to-3D: Learning Simulation-Ready Vehicles from Real-World Images
Title（参考訳）: Unposed-to-3D:実世界の画像からシミュレーション可能な車両を学習する
Authors: Hongyuan Liu, Bochao Zou, Qiankun Liu, Haochen Yu, Qi Mei, Jianfei Jiang, Chen Liu, Cheng Bi, Zhao Wang, Xueyang Zhang, Yifei Zhan, Jiansheng Chen, Huimin Ma,
Abstract要約: 実世界の運転画像から3D車両を再構築する新しい枠組みであるUnposed-to-3Dを提案する。実験では、Unposed-to-3Dは現実世界の画像から現実的で、ポーズ一貫性があり、調和した3D車両モデルを効果的に再構築する。
参考スコア（独自算出の注目度）: 29.849361869760713
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Creating realistic and simulation-ready 3D assets is crucial for autonomous driving research and virtual environment construction. However, existing 3D vehicle generation methods are often trained on synthetic data with significant domain gaps from real-world distributions. The generated models often exhibit arbitrary poses and undefined scales, resulting in poor visual consistency when integrated into driving scenes. In this paper, we present Unposed-to-3D, a novel framework that learns to reconstruct 3D vehicles from real-world driving images using image-only supervision. Our approach consists of two stages. In the first stage, we train an image-to-3D reconstruction network using posed images with known camera parameters. In the second stage, we remove camera supervision and use a camera prediction head that directly estimates the camera parameters from unposed images. The predicted pose is then used for differentiable rendering to provide self-supervised photometric feedback, enabling the model to learn 3D geometry purely from unposed images. To ensure simulation readiness, we further introduce a scale-aware module to predict real-world size information, and a harmonization module that adapts the generated vehicles to the target driving scene with consistent lighting and appearance. Extensive experiments demonstrate that Unposed-to-3D effectively reconstructs realistic, pose-consistent, and harmonized 3D vehicle models from real-world images, providing a scalable path toward creating high-quality assets for driving scene simulation and digital twin environments.
Abstract（参考訳）: 現実的でシミュレーション可能な3Dアセットを作ることは、自律運転研究と仮想環境構築に不可欠である。しかし、既存の3D車両生成法は、実世界の分布からかなりの領域ギャップを持つ合成データに基づいて訓練されることが多い。生成されたモデルは、しばしば任意のポーズと未定義のスケールを示し、駆動シーンに統合された場合の視覚的一貫性が低下する。本稿では,実世界の運転画像から3D車両を再構成する新しいフレームワークUnposed-to-3Dを提案する。私たちのアプローチは2つの段階から成り立っている。第1段階では、既知のカメラパラメータを持つポーズ画像を用いて、画像から3Dへの再構成ネットワークを訓練する。第2段階では、カメラの監視を取り除き、カメラのパラメータを直接推定するカメラ予測ヘッドを使用する。予測されたポーズは、自己教師付きフォトメトリックフィードバックを提供するために微分可能なレンダリングに使用され、モデルが非ポーズ画像から純粋に3D幾何学を学習することができる。さらに,シミュレーションの再現性を確保するため,実世界のサイズ情報を予測するスケールアウェアモジュールや,生成した車両を目標走行シーンに一貫した照明と外観で適応させる調和モジュールも導入した。広汎な実験により、Unposed-to-3Dは実世界の画像から現実的で、ポーズ一貫性があり、調和した3D車両モデルを効果的に再構築し、シーンシミュレーションとデジタルツイン環境を駆動するための高品質な資産を作るためのスケーラブルな経路を提供する。

関連論文リスト

R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation [78.26308457952636]
本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。 R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
論文参考訳（メタデータ） (2025-06-09T14:50:19Z)
Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [83.31688383891871]
本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。 Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
論文参考訳（メタデータ） (2024-12-06T18:59:56Z)
Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text [61.9973218744157]
実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。 Director3Dは既存の手法よりも優れており、実世界の3D生成において優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-06-25T14:42:51Z)
GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文参考訳（メタデータ） (2023-04-04T23:41:20Z)
3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文参考訳（メタデータ） (2023-03-18T05:51:05Z)
Recovering and Simulating Pedestrians in the Wild [81.38135735146015]
本研究では,自動車の走行によって野生で捕獲されたセンサから歩行者の形状と動きを復元することを提案する。再建された歩行者資産銀行をリアルな3Dシミュレーションシステムに組み込む。シミュレーションしたLiDARデータを用いて,視覚知覚タスクに必要な実世界のデータ量を大幅に削減できることを示す。
論文参考訳（メタデータ） (2020-11-16T17:16:32Z)
Photorealism in Driving Simulations: Blending Generative Adversarial Image Synthesis with Rendering [0.0]
我々は、運転シミュレーションの視覚的忠実度を改善するために、ハイブリッドな生成型ニューラルネットワークパイプラインを導入する。テクスチャのない単純なオブジェクトモデルからなる3次元シーンから2次元のセマンティック画像を生成する。これらのセマンティックイメージは、現実の運転シーンで訓練された最先端のジェネレーティブ・アドリア・ネットワーク(GAN)を用いて、フォトリアリスティックなRGBイメージに変換される。
論文参考訳（メタデータ） (2020-07-31T03:25:17Z)
Learning Neural Light Transport [28.9247002210861]
ニューラルネットワークを用いた静的・動的3次元シーンにおける光輸送の学習手法を提案する。我々のモデルは静的および動的シーンのフォトリアリスティックなレンダリングを生成することができる。
論文参考訳（メタデータ） (2020-06-05T13:26:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。