論文の概要: VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2502.05979v1
- Date: Sun, 09 Feb 2025 18:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:31:58.336279
- Title: VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer
- Title(参考訳): VFXクリエータ:制御可能な拡散変換器を用いたアニメーションビジュアルエフェクト生成
- Authors: Xinyu Liu, Ailing Zeng, Wei Xue, Harry Yang, Wenhan Luo, Qifeng Liu, Yike Guo,
- Abstract要約: 本稿では,ユーザフレンドリーなテキスト記述と静的参照画像から動的エフェクトを生成する,画像アニメーションとしてのVFX生成のための新しいパラダイムを提案する。
i) VFXは15の多様なエフェクトカテゴリにまたがる最初の高品質なVFXビデオデータセットで、テキストによる記述と時間制御のためのスタートエンドタイムスタンプと、(ii) Video Diffusion Transformerをベースとした制御可能なVFX生成フレームワークであるVFX Creatorである。
- 参考スコア(独自算出の注目度): 56.81599836980222
- License:
- Abstract: Crafting magic and illusions is one of the most thrilling aspects of filmmaking, with visual effects (VFX) serving as the powerhouse behind unforgettable cinematic experiences. While recent advances in generative artificial intelligence have driven progress in generic image and video synthesis, the domain of controllable VFX generation remains relatively underexplored. In this work, we propose a novel paradigm for animated VFX generation as image animation, where dynamic effects are generated from user-friendly textual descriptions and static reference images. Our work makes two primary contributions: (i) Open-VFX, the first high-quality VFX video dataset spanning 15 diverse effect categories, annotated with textual descriptions, instance segmentation masks for spatial conditioning, and start-end timestamps for temporal control. (ii) VFX Creator, a simple yet effective controllable VFX generation framework based on a Video Diffusion Transformer. The model incorporates a spatial and temporal controllable LoRA adapter, requiring minimal training videos. Specifically, a plug-and-play mask control module enables instance-level spatial manipulation, while tokenized start-end motion timestamps embedded in the diffusion process, alongside the text encoder, allow precise temporal control over effect timing and pace. Extensive experiments on the Open-VFX test set demonstrate the superiority of the proposed system in generating realistic and dynamic effects, achieving state-of-the-art performance and generalization ability in both spatial and temporal controllability. Furthermore, we introduce a specialized metric to evaluate the precision of temporal control. By bridging traditional VFX techniques with generative approaches, VFX Creator unlocks new possibilities for efficient and high-quality video effect generation, making advanced VFX accessible to a broader audience.
- Abstract(参考訳): マジックとイリュージョンは、映画製作において最もスリルのある側面の一つであり、視覚効果(VFX)が、忘れられない映画体験の原動力となっている。
生成人工知能の最近の進歩は、一般的な画像とビデオ合成の進歩を加速させているが、制御可能なVFX生成の領域は、いまだにあまり探索されていない。
本研究では,ユーザフレンドリーなテキスト記述や静的参照画像から動的エフェクトを生成する,画像アニメーションとしてのVFX生成のための新しいパラダイムを提案する。
私たちの仕事は2つの主要な貢献をします。
(i)Open-VFXは15種類のエフェクトカテゴリにまたがる最初の高品質なVFXビデオデータセットで、テキストによる記述、空間条件付けのためのインスタンスセグメンテーションマスク、時間的制御のためのスタートエンドタイムスタンプを付加した。
(ii)VFX Creator - ビデオ拡散変換器をベースとした、シンプルで効果的に制御可能なVFX生成フレームワーク。
このモデルには空間的かつ時間的に制御可能なLoRAアダプタが組み込まれており、最小限のトレーニングビデオを必要とする。
具体的には、プラグイン・アンド・プレイマスク制御モジュールは、インスタンスレベルの空間操作を可能にすると同時に、テキストエンコーダとともに拡散プロセスに埋め込まれたトークン化された初期動作タイムスタンプにより、効果タイミングとペースの正確な時間的制御を可能にする。
Open-VFXテストセットの大規模な実験は、空間的および時間的制御性の両方において、現実的および動的効果の生成、最先端性能、一般化能力の達成において、提案システムの優位性を実証している。
さらに、時間的制御の精度を評価するための特別な指標を導入する。
従来のVFXテクニックをジェネレーティブなアプローチでブリッジすることで、VFX Creatorは、効率的で高品質なビデオエフェクト生成のための新しい可能性を開き、より広い聴衆にVFXを利用できるようにする。
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - VEnhancer: Generative Space-Time Enhancement for Video Generation [123.37212575364327]
VEnhancerは、空間領域に詳細を追加し、時間領域に詳細を合成することにより、既存のテキスト・ビデオの結果を改善する。
我々は、低フレームレートおよび低解像度ビデオの条件として、ビデオ制御ネットをトレーニングし、拡散モデルに注入する。
VEnhancerは、AI生成ビデオの強化において、既存の最先端のビデオ超解像と時空超解像を超越している。
論文 参考訳(メタデータ) (2024-07-10T13:46:08Z) - AniClipart: Clipart Animation with Text-to-Video Priors [28.76809141136148]
本稿では,静的アニメーションをテキストからビデオへの誘導による高品質なアニメーションに変換する計算システムAniClipartを紹介する。
As-Rigid-As-Possible(ARAP)形状の変形とレンダリングの差別化により、AniClipartは剛性を維持しながらエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2024-04-18T17:24:28Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video Representation Learning [16.094271750354835]
モーション情報は、堅牢で一般化されたビデオ表現に不可欠である。
近年の研究では、ビデオコントラスト学習における動き情報の源として、フレーム差が採用されている。
本稿では,適切な動き情報を導入可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-01T07:03:27Z) - MGMAE: Motion Guided Masking for Video Masked Autoencoding [34.80832206608387]
時間的冗長性は、ビデオMAEのマスキング比が高く、マスキング戦略をカスタマイズしている。
我々の動き誘導マスクは、時間的一貫したマスキングボリュームを構築するために、運動情報を明示的に組み込む。
我々は、Something V2 と Kinetics-400 のデータセット上で実験を行い、MGMAE が元の VideoMAE よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-21T15:39:41Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。