論文の概要: AlbedoEdit: Unified Instance-Level Video Editing with Albedo Guidance
- arxiv url: http://arxiv.org/abs/2606.01362v1
- Date: Sun, 31 May 2026 17:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.656426
- Title: AlbedoEdit: Unified Instance-Level Video Editing with Albedo Guidance
- Title(参考訳): AlbedoEdit:Albedo Guidanceを使った統合インスタンスレベルビデオ編集
- Authors: Xilong Zhou, Bao-Huy Nguyen, Zheng Zeng, Jacob Munkberg, Jon Hasselgren, Thomas Leimkühler, Nima Kalantari, Miloš Hašan, Christian Theobalt,
- Abstract要約: ビデオ生成モデルは、ビデオシーケンスの合成において顕著な進歩を遂げた。
オブジェクト挿入、オブジェクト除去、テクスチャ編集など、細かいインスタンスレベルのビデオ編集は、目覚ましいが難しい問題として現れている。
本稿では,オブジェクト挿入,オブジェクト削除,テクスチャ編集を共同でサポートする統合ビデオ編集フレームワークであるAlbedoEditを提案する。
- 参考スコア(独自算出の注目度): 42.3107762497025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generative models have achieved remarkable progress in synthesizing photorealistic video sequences. However, enabling broader and more creative downstream applications requires fine-grained instance-level video editing, including object insertion, object removal, and texture editing, which has emerged as a prominent yet challenging problem. Existing approaches either propose unified generative frameworks with only coarse semantic control, or design task-specific frameworks for individual editing tasks, limiting their flexibility and applicability across diverse real-world scenarios. To address these limitations, we propose AlbedoEdit, a unified generative video editing framework that jointly supports object insertion, object removal, and texture editing. Our key insight is that the intrinsic albedo map, which is invariant to lighting and contains no specularity, shadowing and inter-reflection effects, provides an effective and user-friendly mechanism for specifying fine-grained appearance edits. Built upon video foundation models, AlbedoEdit is fine-tuned to translate source RGB videos into edited RGB videos, conditioned on a user-edited first-frame albedo. Trained on a new paired synthetic dataset covering all three editing tasks, AlbedoEdit implicitly learns to harmonize edited contents and simulate complex real-world visual effects triggered by editing operations, including specular highlights, soft shadows, and mirror reflections. AlbedoEdit demonstrates superior performance over state-of-the-art video editing approaches, both qualitatively and quantitatively. Project webpage is https://vcai.mpi-inf.mpg.de/projects/AlbedoEdit/.
- Abstract(参考訳): ビデオ生成モデルは、フォトリアリスティックなビデオシーケンスの合成において顕著な進歩を遂げた。
しかし、より広範でクリエイティブなダウンストリームアプリケーションを実現するには、オブジェクト挿入、オブジェクト削除、テクスチャ編集など、細かいインスタンスレベルのビデオ編集が必要である。
既存のアプローチでは、粗いセマンティックコントロールのみを備えた統合生成フレームワークの提案や、個々の編集タスクのためのタスク固有のフレームワークの設計が提案されている。
これらの制約に対処するために、オブジェクト挿入、オブジェクト削除、テクスチャ編集を共同でサポートする統合生成ビデオ編集フレームワークであるAlbedoEditを提案する。
我々の重要な洞察は、光に不変で、特異性、影、反射効果を持たない本質アルベドマップは、きめ細かな外観編集を指定するための効果的でユーザフレンドリなメカニズムを提供するということである。
AlbedoEditはビデオファンデーションモデルに基づいて構築されており、ソースのRGBビデオを編集されたRGBビデオに変換するように微調整されている。
AlbedoEditは、3つの編集タスクすべてをカバーする新しいペア合成データセットに基づいて、暗黙的に編集されたコンテンツを調和させ、スペキュラハイライト、ソフトシャドウ、ミラーリフレクションなどの編集操作によって引き起こされる複雑な現実世界の視覚効果をシミュレートする。
AlbedoEditは、定性的かつ定量的に、最先端のビデオ編集アプローチよりも優れたパフォーマンスを示す。
プロジェクトのWebページはhttps://vcai.mpi-inf.mpg.de/projects/AlbedoEdit/。
関連論文リスト
- CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning [98.98349220451216]
CoEditor++は、編集を"編集する方法"と"編集方法"に分解する、トレーニング不要のフレームワークである。
我々は,CoEditor++が編集タスクと編集タスクの両方において,最先端のパフォーマンスを実現することを示す。
以上の結果から,認知中心型画像編集の可能性が示唆された。
論文 参考訳(メタデータ) (2026-01-31T12:20:46Z) - SpotEdit: Selective Region Editing in Diffusion Transformers [66.44912649206553]
SpotEditは、修正されたリージョンのみを選択的に更新する、トレーニング不要な拡散編集フレームワークである。
不要な計算を削減し、未修正領域で高い忠実性を維持することにより、SpotEditは効率よく正確な画像編集を実現する。
論文 参考訳(メタデータ) (2025-12-26T14:59:41Z) - O-DisCo-Edit: Object Distortion Control for Unified Realistic Video Editing [88.93410369258203]
O-DisCo-Editは、新しいオブジェクト歪み制御(O-DisCo)を組み込んだ統合フレームワークである
この信号はランダムノイズと適応ノイズに基づいて、単一の表現内に幅広い編集キューを柔軟にカプセル化する。
O-DisCo-Editは、効果的なトレーニングパラダイムによる効率的な高忠実な編集を可能にする。
論文 参考訳(メタデータ) (2025-09-01T16:29:39Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - Neutral Editing Framework for Diffusion-based Video Editing [24.370584544151424]
本稿では,複雑な非剛性編集を可能にするニュートラル編集(NeuEdit)フレームワークを提案する。
NeuEditは、拡散ベースの編集システムのチューニング編集プロセスを強化する「中立化」の概念を導入している。
多数のビデオの実験は、NeuEditフレームワークの適応性と有効性を示している。
論文 参考訳(メタデータ) (2023-12-10T16:28:32Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - MagicEdit: High-Fidelity and Temporally Coherent Video Editing [70.55750617502696]
MagicEditは、テキスト誘導ビデオ編集タスクの驚くほどシンプルで効果的なソリューションです。
トレーニング中,コンテンツ,構造,動作信号の学習を明示的に切り離すことで,高忠実で時間的に一貫した映像翻訳を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-28T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。