論文の概要: Mirage: One-Step Video Diffusion for Photorealistic and Coherent Asset Editing in Driving Scenes
- arxiv url: http://arxiv.org/abs/2512.24227v1
- Date: Tue, 30 Dec 2025 13:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.389565
- Title: Mirage: One-Step Video Diffusion for Photorealistic and Coherent Asset Editing in Driving Scenes
- Title(参考訳): 光リアルでコヒーレントなアセット編集のためのワンステップビデオ拡散
- Authors: Shuyun Wang, Haiyang Sun, Bing Wang, Hangjun Ye, Xin Yu,
- Abstract要約: ビジョン中心の自動運転システムは、堅牢なパフォーマンスを達成するために、多種多様なスケーラブルなトレーニングデータに依存している。
ビデオオブジェクトの編集は、データ拡張に有望なパスを提供する。
既存の手法は、しばしば高視力と時間的コヒーレンスの両方を維持するのに苦労する。
Mirageは、フレーム間の時間的一貫性を保証するために、テキストとビデオの拡散の上に構築される。
- 参考スコア(独自算出の注目度): 11.72942978943414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-centric autonomous driving systems rely on diverse and scalable training data to achieve robust performance. While video object editing offers a promising path for data augmentation, existing methods often struggle to maintain both high visual fidelity and temporal coherence. In this work, we propose \textbf{Mirage}, a one-step video diffusion model for photorealistic and coherent asset editing in driving scenes. Mirage builds upon a text-to-video diffusion prior to ensure temporal consistency across frames. However, 3D causal variational autoencoders often suffer from degraded spatial fidelity due to compression, and directly passing 3D encoder features to decoder layers breaks temporal causality. To address this, we inject temporally agnostic latents from a pretrained 2D encoder into the 3D decoder to restore detail while preserving causal structures. Furthermore, because scene objects and inserted assets are optimized under different objectives, their Gaussians exhibit a distribution mismatch that leads to pose misalignment. To mitigate this, we introduce a two-stage data alignment strategy combining coarse 3D alignment and fine 2D refinement, thereby improving alignment and providing cleaner supervision. Extensive experiments demonstrate that Mirage achieves high realism and temporal consistency across diverse editing scenarios. Beyond asset editing, Mirage can also generalize to other video-to-video translation tasks, serving as a reliable baseline for future research. Our code is available at https://github.com/wm-research/mirage.
- Abstract(参考訳): ビジョン中心の自動運転システムは、堅牢なパフォーマンスを達成するために、多種多様なスケーラブルなトレーニングデータに依存している。
ビデオオブジェクトの編集はデータ拡張に有望な経路を提供するが、既存の手法は高い視覚的忠実度と時間的コヒーレンスの両方を維持するのに苦労することが多い。
そこで本研究では,撮影シーンにおけるフォトリアリスティックかつコヒーレントなアセット編集のためのワンステップビデオ拡散モデルである「textbf{Mirage}」を提案する。
Mirageは、フレーム間の時間的一貫性を保証するために、テキストとビデオの拡散の上に構築される。
しかし,3次元因果変化型オートエンコーダは圧縮による空間的忠実度低下に悩まされることが多く,デコーダ層に直接3次元エンコーダ特徴を渡すことで時間的因果性が損なわれる。
そこで我々は,事前学習した2Dエンコーダから3Dデコーダに時間的に非依存の潜伏剤を注入し,因果構造を保ちながら詳細を復元する。
さらに、シーンオブジェクトと挿入された資産は異なる目的の下で最適化されているため、ガウス人は分布ミスマッチを示し、ミスアライメントを引き起こす。
これを軽減するために、粗い3次元アライメントと微細な2次元リファインメントを組み合わせた2段階データアライメント戦略を導入し、アライメントを改善し、よりクリーンなインスペクションを提供する。
大規模な実験により、ミラージュは様々な編集シナリオにまたがって高いリアリズムと時間的一貫性を達成することが示された。
資産編集以外にも、Mirageは他のビデオからビデオへの翻訳タスクにも一般化でき、将来の研究の信頼できるベースラインとして機能する。
私たちのコードはhttps://github.com/wm-research/mirage.comで公開されています。
関連論文リスト
- From Gallery to Wrist: Realistic 3D Bracelet Insertion in Videos [8.444819892052958]
2次元拡散モデルは、フォトリアリスティックな編集を作成することを約束している。
従来の3Dレンダリング手法は空間的・時間的整合性が優れているが、フォトリアリスティック照明を実現するには不十分である。
これは、ビデオオブジェクト挿入のための3次元レンダリングと2次元拡散を相乗化するための最初のアプローチである。
論文 参考訳(メタデータ) (2025-07-27T15:49:07Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - Human Mesh Recovery from Multiple Shots [85.18244937708356]
疑似地上真理3Dヒューマンメッシュを用いた長期シーケンスの3次元再構築とマイニングの改善のためのフレームワークを提案する。
得られたデータは,様々なメッシュ回復モデルのトレーニングに有用であることを示す。
編集メディアの大規模なライブラリーから3Dコンテンツを処理・分析するための扉を開くツールを開発した。
論文 参考訳(メタデータ) (2020-12-17T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。