論文の概要: DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer
- arxiv url: http://arxiv.org/abs/2602.24096v2
- Date: Thu, 05 Mar 2026 10:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.065015
- Title: DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer
- Title(参考訳): Diffusion Harmonizer:オンライン拡散エンハンサーを用いたブリッジングニューラルレコンストラクションとフォトリアリスティックシミュレーション
- Authors: Yuxuan Zhang, Katarína Tóthová, Zian Wang, Kangxue Yin, Haithem Turki, Riccardo de Lutio, Yen-Yu Chang, Or Litany, Sanja Fidler, Zan Gojcic,
- Abstract要約: レンダリングを時間的に一貫した出力に変換するオンライン生成拡張フレームワークであるDiffusionHarmonizerを紹介した。
コアとなるのは、単一のGPU上でオンラインシミュレータで実行可能な、一段階の時間的条件付きエンハンサーである。
- 参考スコア(独自算出の注目度): 62.18680935878919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulation is essential to the development and evaluation of autonomous robots such as self-driving vehicles. Neural reconstruction is emerging as a promising solution as it enables simulating a wide variety of scenarios from real-world data alone in an automated and scalable way. However, while methods such as NeRF and 3D Gaussian Splatting can produce visually compelling results, they often exhibit artifacts particularly when rendering novel views, and fail to realistically integrate inserted dynamic objects, especially when they were captured from different scenes. To overcome these limitations, we introduce DiffusionHarmonizer, an online generative enhancement framework that transforms renderings from such imperfect scenes into temporally consistent outputs while improving their realism. At its core is a single-step temporally-conditioned enhancer that is converted from a pretrained multi-step image diffusion model, capable of running in online simulators on a single GPU. The key to training it effectively is a custom data curation pipeline that constructs synthetic-real pairs emphasizing appearance harmonization, artifact correction, and lighting realism. The result is a scalable system that significantly elevates simulation fidelity in both research and production environments.
- Abstract(参考訳): シミュレーションは、自動運転車のような自律ロボットの開発と評価に不可欠である。
ニューラルネットワークの再構築は,現実のデータのみから,自動化されたスケーラブルな方法で,さまざまなシナリオをシミュレートすることが可能な,有望なソリューションとして浮上している。
しかし、NeRFや3D Gaussian Splattingのような手法は視覚的に説得力のある結果をもたらすが、新しいビューをレンダリングする際には、特にアーティファクトを示し、特に異なるシーンからキャプチャされた場合には、挿入された動的オブジェクトを現実的に統合することができない。
これらの制約を克服するため、DiffusionHarmonizerというオンライン生成拡張フレームワークを導入し、これらの不完全なシーンからのレンダリングを時間的に一貫した出力に変換するとともに、リアリズムを改善した。
コアとなるのは、トレーニング済みのマルチステップイメージ拡散モデルから変換された、単一GPU上でオンラインシミュレータで実行可能な、ワンステップの時間条件付エンハンサーである。
効果的にトレーニングするための鍵は、外観調和、アーティファクト修正、照明リアリズムを強調する合成リアルペアを構築するカスタムデータキュレーションパイプラインである。
その結果、研究環境と生産環境の両方においてシミュレーション忠実度を著しく高めるスケーラブルなシステムとなった。
関連論文リスト
- Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - ReconDreamer-RL: Enhancing Reinforcement Learning via Diffusion-based Scene Reconstruction [26.402373173809753]
ReconDreamer-RLは、ビデオ拡散前処理をシーン再構成に統合し、強化学習を支援するためのフレームワークである。
ReconDreamer-RLは、衝突率を5倍に下げた模倣学習法よりも優れた、エンドツーエンドの自動運転訓練を改善する。
論文 参考訳(メタデータ) (2025-08-11T16:45:55Z) - The Sound of Simulation: Learning Multimodal Sim-to-Real Robot Policies with Generative Audio [138.07247714782412]
MultiGenは、大規模な生成モデルを従来の物理シミュレータに統合するフレームワークである。
容器や液体を注ぐ現実世界への効果的なゼロショット転送を実証する。
論文 参考訳(メタデータ) (2025-07-03T17:59:58Z) - R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation [78.26308457952636]
本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。
シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。
R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
論文 参考訳(メタデータ) (2025-06-09T14:50:19Z) - Hybrid Rendering for Multimodal Autonomous Driving: Merging Neural and Physics-Based Simulation [1.0027737736304287]
ニューラル再構成の強みと物理ベースのレンダリングを組み合わせたハイブリッドアプローチを導入する。
提案手法は,特に道路面やレーンマーキングにおいて,新規なビュー合成品質を著しく向上させる。
ノイズの多いLiDAR点雲からの奥行き正則化により、元の画像上でカスタマイズされたNeRFモデルをトレーニングすることで、これを実現する。
論文 参考訳(メタデータ) (2025-03-12T15:18:50Z) - Are NeRFs ready for autonomous driving? Towards closing the real-to-simulation gap [6.393953433174051]
本稿では,実際のデータギャップに対処するための新しい視点を提案する。
自律運転環境における実シミュレーションデータギャップの大規模調査を初めて実施する。
シミュレーションデータに対するモデルロバスト性は顕著に向上し,実世界の性能も向上した。
論文 参考訳(メタデータ) (2024-03-24T11:09:41Z) - Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - RISP: Rendering-Invariant State Predictor with Differentiable Simulation
and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。
本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。
提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文 参考訳(メタデータ) (2022-05-11T17:59:51Z) - Inferring Articulated Rigid Body Dynamics from RGBD Video [18.154013621342266]
我々は,逆レンダリングと微分可能なシミュレーションを組み合わせるパイプラインを導入し,実世界の調音機構のディジタルツインを作成する。
本手法はロボットが操作する関節機構のキネマティックツリーを正確に再構築する。
論文 参考訳(メタデータ) (2022-03-20T08:19:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。