論文の概要: EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation
- arxiv url: http://arxiv.org/abs/2603.06014v1
- Date: Fri, 06 Mar 2026 08:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.30519
- Title: EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation
- Title(参考訳): EffectMaker: カスタマイズされたビジュアルエフェクト生成のための推論と生成の統合
- Authors: Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao,
- Abstract要約: EffectMakerは参照ベースのVFXカスタマイズを可能にする統合推論生成フレームワークである。
我々は、3kのVFXカテゴリにわたる130kビデオを含む最大の高品質な合成データセットであるEffectDataを構築した。
実験によると、EffectMakerは最先端のベースラインよりも優れた視覚的品質と効果の一貫性を実現している。
- 参考スコア(独自算出の注目度): 27.31323449481923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual effects (VFX) are essential for enhancing the expressiveness and creativity of video content, yet producing high-quality effects typically requires expert knowledge and costly production pipelines. Existing AIGC systems face significant challenges in VFX generation due to the scarcity of effect-specific data and the inherent difficulty of modeling supernatural or stylized effects. Moreover, these approaches often require per-effect fine-tuning, which severely limits their scalability and generalization to novel VFX. In this work, we present EffectMaker, a unified reasoning-generation framework that enables reference-based VFX customization. EffectMaker employs a multimodal large language model to interpret high-level effect semantics and reason about how they should adapt to a target subject, while a diffusion transformer leverages in-context learning to capture fine-grained visual cues from reference videos. These two components form a semantic-visual dual-path guidance mechanism that enables accurate, controllable, and effect-consistent synthesis without per-effect fine-tuning. Furthermore, we construct EffectData, the largest high-quality synthetic dataset containing 130k videos across 3k VFX categories, to improve generalization and scalability. Experiments show that EffectMaker achieves superior visual quality and effect consistency over state-of-the-art baselines, offering a scalable and flexible paradigm for customized VFX generation. Project page: https://effectmaker.github.io
- Abstract(参考訳): ビジュアルエフェクト(VFX)は、ビデオコンテンツの表現性と創造性を高めるために不可欠であるが、高品質エフェクトを生成するには、一般的には専門家の知識とコストのかかる生産パイプラインが必要である。
既存のAIGCシステムは、効果特化データの不足と、超自然的またはスタイリングされた効果をモデル化することの難しさにより、VFX生成において重大な課題に直面している。
さらに、これらのアプローチは、そのスケーラビリティと新しいVFXへの一般化を著しく制限する、効果ごとの微調整を必要とすることが多い。
本稿では、参照ベースのVFXカスタマイズを可能にする統合推論生成フレームワークであるEffectMakerを紹介する。
エフェクトメーカーは、ハイレベルなエフェクトセマンティクスを解釈し、ターゲットにどのように適応すべきかを推論するために、マルチモーダルな大きな言語モデルを採用している。
これらの2つのコンポーネントは、セマンティック・ビジュアル・デュアルパス誘導機構を形成し、精度、制御可能、エフェクト・一貫性の合成を可能にする。
さらに,3kのVFXカテゴリにまたがる130kビデオを含む高品質な合成データセットであるエフェクトデータを構築し,一般化と拡張性を向上させる。
実験によると、EffectMakerは最先端のベースラインよりも優れた視覚的品質と効果の一貫性を実現し、カスタマイズされたVFX生成のためのスケーラブルで柔軟なパラダイムを提供する。
プロジェクトページ: https://effectmaker.github.io
関連論文リスト
- Tuning-free Visual Effect Transfer across Videos [91.93897438317397]
RefVFXは、参照ビデオからターゲットビデオや画像への複雑な時間効果をフィードフォワード形式で転送するフレームワークである。
本稿では,三重項の大規模データセットを導入し,各三重項は参照効果ビデオ,入力画像,および対応する出力ビデオから構成される。
RefVFXは視覚的に一貫した時間的コヒーレントな編集を行い、目に見えない効果カテゴリをまたいで一般化し、量的指標と人的嗜好の両方においてプロンプトのみのベースラインを上回ります。
論文 参考訳(メタデータ) (2026-01-12T18:59:32Z) - IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning [13.89445714667069]
IC-Effectは、数ショットビデオVFX編集のための命令誘導計算フレームワークである。
空間的および時間的一貫性を維持しながら複雑な効果を合成する。
一般的な編集適応と効果特化学習からなる2段階の学習戦略は、強い指導と堅牢な効果モデリングを保証する。
論文 参考訳(メタデータ) (2025-12-17T17:47:18Z) - VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning [67.44716618860544]
我々は、VFXビデオ生成のための最初の統合参照ベースのフレームワークであるVFXMasterを紹介する。
インコンテキスト学習タスクとしてエフェクト生成をリキャストし、参照ビデオからターゲットコンテンツへの多様なダイナミックエフェクトを再現する。
さらに,単一ユーザが提供するビデオから,強靭な見えざる効果に対する一般化能力を急速に向上させる,効率的なワンショット効果適応機構を提案する。
論文 参考訳(メタデータ) (2025-10-29T17:59:53Z) - Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation [19.620765157987012]
オムニエフェクト(Omni-Effects)は、即時誘導効果と空間制御可能な複合効果を生成できるフレームワークである。
LoRAベースのMixture of Experts (LoRA-MoE)は、専門家グループであるLoRAを採用し、統一モデルに多様な効果を統合する。
Space-Aware Prompt (SAP) は、空間マスク情報をテキストトークンに組み込んで、正確な空間制御を可能にする。
論文 参考訳(メタデータ) (2025-08-11T13:41:24Z) - VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer [56.81599836980222]
本稿では,ユーザフレンドリーなテキスト記述と静的参照画像から動的エフェクトを生成する,画像アニメーションとしてのVFX生成のための新しいパラダイムを提案する。
i) VFXは15の多様なエフェクトカテゴリにまたがる最初の高品質なVFXビデオデータセットで、テキストによる記述と時間制御のためのスタートエンドタイムスタンプと、(ii) Video Diffusion Transformerをベースとした制御可能なVFX生成フレームワークであるVFX Creatorである。
論文 参考訳(メタデータ) (2025-02-09T18:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。