論文の概要: Mirage: One-Step Video Diffusion for Photorealistic and Coherent Asset Editing in Driving Scenes
- arxiv url: http://arxiv.org/abs/2512.24227v1
- Date: Tue, 30 Dec 2025 13:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.389565
- Title: Mirage: One-Step Video Diffusion for Photorealistic and Coherent Asset Editing in Driving Scenes
- Title(参考訳): 光リアルでコヒーレントなアセット編集のためのワンステップビデオ拡散
- Authors: Shuyun Wang, Haiyang Sun, Bing Wang, Hangjun Ye, Xin Yu,
- Abstract要約: ビジョン中心の自動運転システムは、堅牢なパフォーマンスを達成するために、多種多様なスケーラブルなトレーニングデータに依存している。
ビデオオブジェクトの編集は、データ拡張に有望なパスを提供する。
既存の手法は、しばしば高視力と時間的コヒーレンスの両方を維持するのに苦労する。
Mirageは、フレーム間の時間的一貫性を保証するために、テキストとビデオの拡散の上に構築される。
- 参考スコア(独自算出の注目度): 11.72942978943414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-centric autonomous driving systems rely on diverse and scalable training data to achieve robust performance. While video object editing offers a promising path for data augmentation, existing methods often struggle to maintain both high visual fidelity and temporal coherence. In this work, we propose \textbf{Mirage}, a one-step video diffusion model for photorealistic and coherent asset editing in driving scenes. Mirage builds upon a text-to-video diffusion prior to ensure temporal consistency across frames. However, 3D causal variational autoencoders often suffer from degraded spatial fidelity due to compression, and directly passing 3D encoder features to decoder layers breaks temporal causality. To address this, we inject temporally agnostic latents from a pretrained 2D encoder into the 3D decoder to restore detail while preserving causal structures. Furthermore, because scene objects and inserted assets are optimized under different objectives, their Gaussians exhibit a distribution mismatch that leads to pose misalignment. To mitigate this, we introduce a two-stage data alignment strategy combining coarse 3D alignment and fine 2D refinement, thereby improving alignment and providing cleaner supervision. Extensive experiments demonstrate that Mirage achieves high realism and temporal consistency across diverse editing scenarios. Beyond asset editing, Mirage can also generalize to other video-to-video translation tasks, serving as a reliable baseline for future research. Our code is available at https://github.com/wm-research/mirage.
- Abstract(参考訳): ビジョン中心の自動運転システムは、堅牢なパフォーマンスを達成するために、多種多様なスケーラブルなトレーニングデータに依存している。
ビデオオブジェクトの編集はデータ拡張に有望な経路を提供するが、既存の手法は高い視覚的忠実度と時間的コヒーレンスの両方を維持するのに苦労することが多い。
そこで本研究では,撮影シーンにおけるフォトリアリスティックかつコヒーレントなアセット編集のためのワンステップビデオ拡散モデルである「textbf{Mirage}」を提案する。
Mirageは、フレーム間の時間的一貫性を保証するために、テキストとビデオの拡散の上に構築される。
しかし,3次元因果変化型オートエンコーダは圧縮による空間的忠実度低下に悩まされることが多く,デコーダ層に直接3次元エンコーダ特徴を渡すことで時間的因果性が損なわれる。
そこで我々は,事前学習した2Dエンコーダから3Dデコーダに時間的に非依存の潜伏剤を注入し,因果構造を保ちながら詳細を復元する。
さらに、シーンオブジェクトと挿入された資産は異なる目的の下で最適化されているため、ガウス人は分布ミスマッチを示し、ミスアライメントを引き起こす。
これを軽減するために、粗い3次元アライメントと微細な2次元リファインメントを組み合わせた2段階データアライメント戦略を導入し、アライメントを改善し、よりクリーンなインスペクションを提供する。
大規模な実験により、ミラージュは様々な編集シナリオにまたがって高いリアリズムと時間的一貫性を達成することが示された。
資産編集以外にも、Mirageは他のビデオからビデオへの翻訳タスクにも一般化でき、将来の研究の信頼できるベースラインとして機能する。
私たちのコードはhttps://github.com/wm-research/mirage.comで公開されています。
関連論文リスト
- PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。
本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。
我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文 参考訳(メタデータ) (2026-01-05T18:55:45Z) - DragMesh: Interactive 3D Generation Made Easy [12.832539752284466]
DragMeshはリアルタイムインタラクティブな3Dコーディネーションのための堅牢なフレームワークである。
私たちのコアコントリビューションは、新しい分離されたキネマティック推論とモーションジェネレーションフレームワークです。
論文 参考訳(メタデータ) (2025-12-06T13:10:44Z) - DisCo3D: Distilling Multi-View Consistency for 3D Scene Editing [12.383291424229448]
我々は,従来の3D一貫性を2Dエディタに蒸留する新しいフレームワークである textbfDisCo3D を提案する。
まず,シーン適応のためのマルチビュー入力を用いて3Dジェネレータを微調整し,整合蒸留により2Dエディターを訓練する。
実験の結果、DisCo3Dは安定したマルチビューの一貫性を実現し、編集品質において最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-08-03T09:27:41Z) - From Gallery to Wrist: Realistic 3D Bracelet Insertion in Videos [8.444819892052958]
2次元拡散モデルは、フォトリアリスティックな編集を作成することを約束している。
従来の3Dレンダリング手法は空間的・時間的整合性が優れているが、フォトリアリスティック照明を実現するには不十分である。
これは、ビデオオブジェクト挿入のための3次元レンダリングと2次元拡散を相乗化するための最初のアプローチである。
論文 参考訳(メタデータ) (2025-07-27T15:49:07Z) - GaussVideoDreamer: 3D Scene Generation with Video Diffusion and Inconsistency-Aware Gaussian Splatting [17.17292309504131]
GaussVideoDreamerは、画像、ビデオ、および3D生成のギャップを埋めることで、生成的マルチメディアアプローチを前進させる。
提案手法は,LLaVA-IQAスコアの32%,既存の手法に比べて少なくとも2倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-04-14T09:04:01Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - Human Mesh Recovery from Multiple Shots [85.18244937708356]
疑似地上真理3Dヒューマンメッシュを用いた長期シーケンスの3次元再構築とマイニングの改善のためのフレームワークを提案する。
得られたデータは,様々なメッシュ回復モデルのトレーニングに有用であることを示す。
編集メディアの大規模なライブラリーから3Dコンテンツを処理・分析するための扉を開くツールを開発した。
論文 参考訳(メタデータ) (2020-12-17T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。