論文の概要: V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties
- arxiv url: http://arxiv.org/abs/2512.11799v1
- Date: Fri, 12 Dec 2025 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.886034
- Title: V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties
- Title(参考訳): V-RGBX:本質上の正確な制御による映像編集
- Authors: Ye Fang, Tong Wu, Valentin Deschaintre, Duygu Ceylan, Iliyan Georgiev, Chun-Hao Paul Huang, Yiwei Hu, Xuelin Chen, Tuanfeng Yang Wang,
- Abstract要約: 編集可能なビデオ編集のための最初のエンドツーエンドフレームワークであるV-RGBXを提案する。
V-RGBXは、本質的なチャネルへのビデオ逆レンダリング、本質的な表現からのビデオ合成、本質的なチャネルに条件付けされた編集可能なビデオ編集の3つの重要な機能を統合する。
本稿では,V-RGBXが時間的に一貫したフォトリアリスティックな映像を生成できることを示す。
- 参考スコア(独自算出の注目度): 31.579053991884845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale video generation models have shown remarkable potential in modeling photorealistic appearance and lighting interactions in real-world scenes. However, a closed-loop framework that jointly understands intrinsic scene properties (e.g., albedo, normal, material, and irradiance), leverages them for video synthesis, and supports editable intrinsic representations remains unexplored. We present V-RGBX, the first end-to-end framework for intrinsic-aware video editing. V-RGBX unifies three key capabilities: (1) video inverse rendering into intrinsic channels, (2) photorealistic video synthesis from these intrinsic representations, and (3) keyframe-based video editing conditioned on intrinsic channels. At the core of V-RGBX is an interleaved conditioning mechanism that enables intuitive, physically grounded video editing through user-selected keyframes, supporting flexible manipulation of any intrinsic modality. Extensive qualitative and quantitative results show that V-RGBX produces temporally consistent, photorealistic videos while propagating keyframe edits across sequences in a physically plausible manner. We demonstrate its effectiveness in diverse applications, including object appearance editing and scene-level relighting, surpassing the performance of prior methods.
- Abstract(参考訳): 大規模ビデオ生成モデルは、現実世界のシーンにおける写実的な外観や光の相互作用をモデル化する大きな可能性を示している。
しかし, 映像合成において, 内在的シーン特性(例えばアルベド, 正規, 物質, 照度)を共同で理解するクローズドループフレームワークは, 映像合成に利用でき, 編集可能な内在的表現も未探索のままである。
V-RGBXは、本質的なビデオ編集のための最初のエンドツーエンドフレームワークである。
V-RGBXは,(1)固有チャネルへのビデオ逆レンダリング,(2)固有表現からのフォトリアリスティックなビデオ合成,(3)固有チャネルに条件付きキーフレームベースのビデオ編集の3つの重要な機能を統合する。
V-RGBXのコアとなるインターリーブドコンディショニング機構は、ユーザが選択したキーフレームを通じて、直感的で物理的にグラウンド化されたビデオ編集を可能にし、固有のモダリティの柔軟な操作をサポートする。
広範に質的かつ定量的な結果から、V-RGBXは時間的に一貫したフォトリアリスティックなビデオを生成しつつ、キーフレームの編集を物理的に妥当な方法で伝播していることがわかる。
オブジェクトの外観編集やシーンレベルのリライティングなど,様々な用途で有効性を示す。
関連論文リスト
- X2Video: Adapting Diffusion Models for Multimodal Controllable Neural Video Rendering [25.939894201559426]
X2Videoは、アルベド、正常、粗さ、金属性、照射を含む固有チャネルによって誘導される最初の拡散モデルである。
グローバルリージョンとローカルリージョンの両方で参照イメージとテキストプロンプトを備えた直感的なマルチモーダルコントロールをサポートする。
X2Videoは、本質的な条件でガイドされた、長く、時間的に一貫性があり、フォトリアリスティックなビデオを生成することができる。
論文 参考訳(メタデータ) (2025-10-09T17:50:31Z) - Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer [41.82610275115671]
トレーニング不要なカラー編集手法であるColorCtrlを提案する。
注目マップと値トークンを対象とする操作によって構造と色を分離することにより、精度と一貫性のある色編集を可能にする。
本手法は,FLUX.1 Kontext Max や GPT-4o Image Generation などの強力な商用モデルを上回る一貫性を持つ。
論文 参考訳(メタデータ) (2025-08-12T17:57:04Z) - IntrinsicEdit: Precise generative image manipulation in intrinsic space [53.404235331886255]
そこで本研究では,固有画像空間で動作する汎用的生成ワークフローを提案する。
我々はアイデンティティの保存と内在チャネルの絡み合いの鍵となる課題に対処する。
我々は,グローバル照明効果の自動分解による高精度かつ効率的な編集を可能にする。
論文 参考訳(メタデータ) (2025-05-13T18:24:15Z) - SketchVideo: Sketch-based Video Generation and Editing [51.99066098393491]
本研究では,映像生成のためのスケッチベースの空間・動き制御の実現と,実・合成ビデオのきめ細かい編集を支援することを目的とする。
DiTビデオ生成モデルに基づいて、スキップされたDiTブロックの残像を予測するスケッチ制御ブロックを用いたメモリ効率の高い制御構造を提案する。
スケッチベースのビデオ編集では,新たに編集したコンテンツとオリジナルビデオの空間的特徴と動的動作との整合性を維持するビデオ挿入モジュールを設計する。
論文 参考訳(メタデータ) (2025-03-30T02:44:09Z) - DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models [83.28670336340608]
逆レンダリングとフォワードレンダリングの二重問題に対処するニューラルアプローチであるDiffusionRendererを導入する。
本モデルは,リライティング,素材編集,現実的なオブジェクト挿入など,単一のビデオ入力から現実的な応用を可能にする。
論文 参考訳(メタデータ) (2025-01-30T18:59:11Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。