論文の概要: RealMaster: Lifting Rendered Scenes into Photorealistic Video
- arxiv url: http://arxiv.org/abs/2603.23462v1
- Date: Tue, 24 Mar 2026 17:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.613313
- Title: RealMaster: Lifting Rendered Scenes into Photorealistic Video
- Title(参考訳): リアルマスター:レンダリングされたシーンをフォトリアリスティックなビデオにリフティング
- Authors: Dana Cohen-Bar, Ido Sobol, Raphael Bensadoun, Shelly Sheynin, Oran Gafni, Or Patashnik, Daniel Cohen-Or, Amit Zohar,
- Abstract要約: 最先端のビデオ生成モデルは驚くべきフォトリアリズムを生み出すが、生成したコンテンツをシーン要求に合わせるために必要な正確な制御は欠如している。
本稿では,3Dエンジンの出力と完全な整合性を維持しつつ,映像拡散モデルを用いてレンダリング映像をフォトリアリスティックビデオに引き上げる手法であるRealMasterを提案する。
RealMasterは既存のビデオ編集のベースラインを大幅に上回り、ジオメトリ、ダイナミックス、アイデンティティを元の3Dコントロールで指定しながら、フォトリアリズムを改善している。
- 参考スコア(独自算出の注目度): 55.04231137698114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art video generation models produce remarkable photorealism, but they lack the precise control required to align generated content with specific scene requirements. Furthermore, without an underlying explicit geometry, these models cannot guarantee 3D consistency. Conversely, 3D engines offer granular control over every scene element and provide native 3D consistency by design, yet their output often remains trapped in the "uncanny valley". Bridging this sim-to-real gap requires both structural precision, where the output must exactly preserve the geometry and dynamics of the input, and global semantic transformation, where materials, lighting, and textures must be holistically transformed to achieve photorealism. We present RealMaster, a method that leverages video diffusion models to lift rendered video into photorealistic video while maintaining full alignment with the output of the 3D engine. To train this model, we generate a paired dataset via an anchor-based propagation strategy, where the first and last frames are enhanced for realism and propagated across the intermediate frames using geometric conditioning cues. We then train an IC-LoRA on these paired videos to distill the high-quality outputs of the pipeline into a model that generalizes beyond the pipeline's constraints, handling objects and characters that appear mid-sequence and enabling inference without requiring anchor frames. Evaluated on complex GTA-V sequences, RealMaster significantly outperforms existing video editing baselines, improving photorealism while preserving the geometry, dynamics, and identity specified by the original 3D control.
- Abstract(参考訳): 最先端のビデオ生成モデルは驚くべきフォトリアリズムを生み出すが、生成したコンテンツを特定のシーン要求に合わせるために必要な正確な制御は欠如している。
さらに、基礎となる明示的な幾何学がなければ、これらのモデルは3次元の整合性を保証することはできない。
逆に、3Dエンジンはすべてのシーン要素を細かく制御し、設計によってネイティブな3D一貫性を提供するが、その出力は「不気味な谷」に閉じ込められていることが多い。
このsim-to-realギャップを埋めるには、出力が入力の幾何学と力学を正確に保存しなければならない構造的精度と、材料、照明、テクスチャがフォトリアリズムを達成するために全体的変換されなければならない大域的意味変換の両方が必要である。
本稿では,3Dエンジンの出力と完全な整合性を維持しつつ,映像拡散モデルを用いてレンダリング映像をフォトリアリスティックビデオに引き上げる手法であるRealMasterを提案する。
このモデルをトレーニングするために、アンカーベースの伝搬戦略を用いてペア化されたデータセットを生成し、第1フレームと第2フレームをリアル性のために拡張し、幾何学的条件付きキューを用いて中間フレームに伝播する。
次に、これらのペアビデオ上でIC-LoRAをトレーニングし、パイプラインの高品質な出力をパイプラインの制約を越えて一般化するモデルに抽出する。
複雑なGTA-Vシーケンスに基づいて評価すると、RealMasterは既存のビデオ編集ベースラインを著しく上回り、ジオメトリ、ダイナミックス、アイデンティティを元の3Dコントロールで指定しながらフォトリアリズムを改善している。
関連論文リスト
- TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos [65.99602532894241]
明示的な3次元幾何学に基づく高忠実度TTVを生成するためのフレームワークであるTAPESTRYを紹介する。
また,3D-Aware Inpaintingを用いた多段パイプラインを特徴とする,TTV入力からの下流再構成タスクを設計する。
その結果,本手法はビデオの整合性と最終的な再現性の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-03-18T14:02:09Z) - ViSA: 3D-Aware Video Shading for Real-Time Upper-Body Avatar Creation [62.86900540547787]
現在の3Dアバター生成法は、ぼやけたテクスチャや固い不自然な動きといったアーティファクトに悩まされることが多い。
両パラダイムの強みを組み合わせた新しいアプローチを提案する。
ビデオモデルの生成能力と3次元再構成の幾何学的安定性を結合することにより,高忠実度デジタルアバターを製作する。
論文 参考訳(メタデータ) (2025-12-08T17:10:29Z) - From Gallery to Wrist: Realistic 3D Bracelet Insertion in Videos [8.444819892052958]
2次元拡散モデルは、フォトリアリスティックな編集を作成することを約束している。
従来の3Dレンダリング手法は空間的・時間的整合性が優れているが、フォトリアリスティック照明を実現するには不十分である。
これは、ビデオオブジェクト挿入のための3次元レンダリングと2次元拡散を相乗化するための最初のアプローチである。
論文 参考訳(メタデータ) (2025-07-27T15:49:07Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。