論文の概要: EasyOmnimatte: Taming Pretrained Inpainting Diffusion Models for End-to-End Video Layered Decomposition
- arxiv url: http://arxiv.org/abs/2512.21865v1
- Date: Fri, 26 Dec 2025 04:57:59 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:02:13.811525
- Title: EasyOmnimatte: Taming Pretrained Inpainting Diffusion Models for End-to-End Video Layered Decomposition
- Title(参考訳): EasyOmnimatte: エンド・ツー・エンドビデオ層分解のための事前学習型塗布拡散モデルの作成
- Authors: Yihan Hu, Xuelin Chen, Xiaodong Cun,
- Abstract要約: 我々は,最初に統合されたエンドツーエンドビデオオムニマト方式であるEasy Omnimatteを紹介する。
元の重量をそのまま保ちながら、2つの相補的な専門家を学習するために、拡散モデルを微調整する。
サンプリング中、エフェクトエキスパートは、初期、高ノイズのステップで、品質エキスパートは後、低ノイズのステップで、Denoisingに使用される。
- 参考スコア(独自算出の注目度): 26.91723676903844
- License:
- Abstract: Existing video omnimatte methods typically rely on slow, multi-stage, or inference-time optimization pipelines that fail to fully exploit powerful generative priors, producing suboptimal decompositions. Our key insight is that, if a video inpainting model can be finetuned to remove the foreground-associated effects, then it must be inherently capable of perceiving these effects, and hence can also be finetuned for the complementary task: foreground layer decomposition with associated effects. However, although naïvely finetuning the inpainting model with LoRA applied to all blocks can produce high-quality alpha mattes, it fails to capture associated effects. Our systematic analysis reveals this arises because effect-related cues are primarily encoded in specific DiT blocks and become suppressed when LoRA is applied across all blocks. To address this, we introduce EasyOmnimatte, the first unified, end-to-end video omnimatte method. Concretely, we finetune a pretrained video inpainting diffusion model to learn dual complementary experts while keeping its original weights intact: an Effect Expert, where LoRA is applied only to effect-sensitive DiT blocks to capture the coarse structure of the foreground and associated effects, and a fully LoRA-finetuned Quality Expert learns to refine the alpha matte. During sampling, Effect Expert is used for denoising at early, high-noise steps, while Quality Expert takes over at later, low-noise steps. This design eliminates the need for two full diffusion passes, significantly reducing computational cost without compromising output quality. Ablation studies validate the effectiveness of this Dual-Expert strategy. Experiments demonstrate that EasyOmnimatte sets a new state-of-the-art for video omnimatte and enables various downstream tasks, significantly outperforming baselines in both quality and efficiency.
- Abstract(参考訳): 既存のビデオオムニマト法は、通常、遅い、多段階、あるいは推論時の最適化パイプラインに依存しており、強力な生成前駆体を十分に活用することができず、最適下分解を生成する。
我々の重要な洞察は、ビデオの塗布モデルが前景関連効果を除去するために微調整できるなら、それは本質的にこれらの効果を知覚できなければならず、そのため補完的なタスク、つまり前景層分解と関連する効果を微調整できるということである。
しかし、すべてのブロックに適用されたLoRAで塗布モデルを微調整すると、高品質なアルファマットが生成されるが、関連する効果を捉えることができない。
我々の系統分析では、効果関連キューが主に特定のDiTブロックに符号化され、LoRAが全ブロックに適用されると抑制されるため、このような現象が生じることが判明した。
そこで本研究では,最初に統合されたエンドツーエンドビデオオムニマト方式であるEasyOmnimatteを紹介する。
具体的には、前景の粗い構造と関連する効果を捉えるために、LoRAが効果に敏感なDiTブロックにのみ適用されるエフェクトエキスパートと、完全にLoRAに精巧な品質エキスパートがアルファマットを洗練することを学ぶ。
サンプリング中、エフェクトエキスパートは、初期、高ノイズのステップで、品質エキスパートは後、低ノイズのステップで、Denoisingに使用される。
この設計は2つの完全拡散パスの必要性を排除し、出力品質を損なうことなく計算コストを大幅に削減する。
アブレーション研究は、このデュアルエキスパート戦略の有効性を検証する。
実験により、EasyOmnimatteはビデオオムニマトのための新しい最先端技術を設定し、様々なダウンストリームタスクを可能にし、品質と効率の両方でベースラインを大幅に上回ることを示した。
関連論文リスト
- IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning [13.89445714667069]
IC-Effectは、数ショットビデオVFX編集のための命令誘導計算フレームワークである。
空間的および時間的一貫性を維持しながら複雑な効果を合成する。
一般的な編集適応と効果特化学習からなる2段階の学習戦略は、強い指導と堅牢な効果モデリングを保証する。
論文 参考訳(メタデータ) (2025-12-17T17:47:18Z) - UniSER: A Foundation Model for Unified Soft Effects Removal [72.60782767314713]
一つのフレームワーク内でのソフトエフェクトによる多様な劣化に対処できるUniSERを導入する。
我々の方法論は、堅牢性と一般化を保証するために、巨大な3.8Mペアデータセットのキュレーションに重点を置いている。
このシナジスティックなアプローチにより、UniSERはスペシャリストモデルとジェネラリストモデルの両方を大きく上回る。
論文 参考訳(メタデータ) (2025-11-18T06:39:39Z) - VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning [67.44716618860544]
我々は、VFXビデオ生成のための最初の統合参照ベースのフレームワークであるVFXMasterを紹介する。
インコンテキスト学習タスクとしてエフェクト生成をリキャストし、参照ビデオからターゲットコンテンツへの多様なダイナミックエフェクトを再現する。
さらに,単一ユーザが提供するビデオから,強靭な見えざる効果に対する一般化能力を急速に向上させる,効率的なワンショット効果適応機構を提案する。
論文 参考訳(メタデータ) (2025-10-29T17:59:53Z) - Dual-Expert Consistency Model for Efficient and High-Quality Video Generation [57.33788820909211]
本稿では,パラメータ効率の高いtextbfDual-Expert Consistency Model (DCM) を提案する。
提案手法は, ビデオ拡散モデル蒸留における専門的専門化の有効性を実証し, サンプリング工程を大幅に短縮して, 最先端の視覚品質を実現する。
論文 参考訳(メタデータ) (2025-06-03T17:55:04Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Boosting Visual Recognition in Real-world Degradations via Unsupervised Feature Enhancement Module with Deep Channel Prior [22.323789227447755]
霧、低照度、動きのぼかしは画像の品質を低下させ、自動運転の安全性を脅かす。
本研究は、劣化した視覚認識のための新しいDeep Channel Prior (DCP)を提案する。
これに基づいて、教師なし特徴補正を実現するために、新しいプラグアンドプレイunsupervised Feature Enhancement Module (UFEM)を提案する。
論文 参考訳(メタデータ) (2024-04-02T07:16:56Z) - Learning Task-Oriented Flows to Mutually Guide Feature Alignment in
Synthesized and Real Video Denoising [137.5080784570804]
Video Denoisingは、クリーンなノイズを回復するためにビデオからノイズを取り除くことを目的としている。
既存の研究によっては、近辺のフレームから追加の空間的時間的手がかりを利用することで、光学的流れがノイズ発生の助けとなることが示されている。
本稿では,様々なノイズレベルに対してより堅牢なマルチスケール光フロー誘導型ビデオデノイング法を提案する。
論文 参考訳(メタデータ) (2022-08-25T00:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。