論文の概要: IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning
- arxiv url: http://arxiv.org/abs/2512.15635v1
- Date: Wed, 17 Dec 2025 17:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.083051
- Title: IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning
- Title(参考訳): IC-Effect: 文脈内学習による精密かつ効率的な映像効果編集
- Authors: Yuanhang Li, Yiren Song, Junzhe Bai, Xinran Liang, Hu Yang, Libiao Jin, Qi Mao,
- Abstract要約: IC-Effectは、数ショットビデオVFX編集のための命令誘導計算フレームワークである。
空間的および時間的一貫性を維持しながら複雑な効果を合成する。
一般的な編集適応と効果特化学習からなる2段階の学習戦略は、強い指導と堅牢な効果モデリングを保証する。
- 参考スコア(独自算出の注目度): 13.89445714667069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose \textbf{IC-Effect}, an instruction-guided, DiT-based framework for few-shot video VFX editing that synthesizes complex effects (\eg flames, particles and cartoon characters) while strictly preserving spatial and temporal consistency. Video VFX editing is highly challenging because injected effects must blend seamlessly with the background, the background must remain entirely unchanged, and effect patterns must be learned efficiently from limited paired data. However, existing video editing models fail to satisfy these requirements. IC-Effect leverages the source video as clean contextual conditions, exploiting the contextual learning capability of DiT models to achieve precise background preservation and natural effect injection. A two-stage training strategy, consisting of general editing adaptation followed by effect-specific learning via Effect-LoRA, ensures strong instruction following and robust effect modeling. To further improve efficiency, we introduce spatiotemporal sparse tokenization, enabling high fidelity with substantially reduced computation. We also release a paired VFX editing dataset spanning $15$ high-quality visual styles. Extensive experiments show that IC-Effect delivers high-quality, controllable, and temporally consistent VFX editing, opening new possibilities for video creation.
- Abstract(参考訳): 空間的・時間的一貫性を厳格に保ちながら複雑なエフェクト(フレーム、粒子、漫画のキャラクター)を合成する,数ショットビデオVFX編集のためのインストラクションガイド付きDITベースのフレームワークである‘textbf{IC-Effect}’を提案する。
ビデオVFX編集は、注入されたエフェクトが背景とシームレスに融合しなければならないため、背景は完全に変更されなければならないため、エフェクトパターンは限られたペアデータから効率的に学習する必要があるため、非常に難しい。
しかし、既存のビデオ編集モデルはこれらの要件を満たすことができない。
IC-Effectは、ソースビデオをクリーンな文脈条件として利用し、DiTモデルの文脈学習機能を活用して、正確な背景保存と自然効果注入を実現する。
一般的な編集適応とエフェクト-ロラによるエフェクト特化学習からなる2段階の学習戦略は、強い指示の追従とロバストな効果モデリングを保証する。
さらに効率を向上するため,時空間スパーストークン化を導入し,計算量を大幅に削減した高忠実度化を実現した。
また、高品質なビジュアルスタイルで15ドルのVFX編集データセットもリリースしました。
大規模な実験により、IC-Effectは高品質で制御可能で、時間的に一貫したVFX編集を提供し、ビデオ作成の新たな可能性を開くことが示されている。
関連論文リスト
- Generative Photographic Control for Scene-Consistent Video Cinematic Editing [75.45726688666083]
CineCtrlはプロのカメラパラメータを細かく制御する最初の映像編集フレームワークである。
本稿では、カメラの動きを写真入力から切り離すための分離されたクロスアテンション機構を提案する。
本モデルでは,ユーザの指定した写真カメラ効果を正確に制御した高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2025-11-17T03:17:23Z) - VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning [67.44716618860544]
我々は、VFXビデオ生成のための最初の統合参照ベースのフレームワークであるVFXMasterを紹介する。
インコンテキスト学習タスクとしてエフェクト生成をリキャストし、参照ビデオからターゲットコンテンツへの多様なダイナミックエフェクトを再現する。
さらに,単一ユーザが提供するビデオから,強靭な見えざる効果に対する一般化能力を急速に向上させる,効率的なワンショット効果適応機構を提案する。
論文 参考訳(メタデータ) (2025-10-29T17:59:53Z) - VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer [56.81599836980222]
本稿では,ユーザフレンドリーなテキスト記述と静的参照画像から動的エフェクトを生成する,画像アニメーションとしてのVFX生成のための新しいパラダイムを提案する。
i) VFXは15の多様なエフェクトカテゴリにまたがる最初の高品質なVFXビデオデータセットで、テキストによる記述と時間制御のためのスタートエンドタイムスタンプと、(ii) Video Diffusion Transformerをベースとした制御可能なVFX生成フレームワークであるVFX Creatorである。
論文 参考訳(メタデータ) (2025-02-09T18:12:25Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - VideoDirector: Precise Video Editing via Text-to-Video Models [45.53826541639349]
現在のビデオ編集法は、時間的コヒーレンス生成能力を欠くテキスト・ツー・ビデオ(T2V)モデルに依存している。
本稿では、より正確なピボットインバージョンを実現するために、時空間デカップリングガイダンス(STDG)と複数フレームのヌルテキスト最適化戦略を提案する。
実験結果から,本手法はT2Vモデルの強力な時間生成能力を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-11-26T16:56:53Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。