論文の概要: Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2501.03931v1
- Date: Tue, 07 Jan 2025 16:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:21.522402
- Title: Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers
- Title(参考訳): マジックミラー:ビデオ拡散変換器のID保存ビデオ生成
- Authors: Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia,
- Abstract要約: 撮影レベルの品質とダイナミックな動きで、アイデンティティ保存されたビデオを生成するためのフレームワークであるMagic Mirrorを提示する。
提案手法では,(1)特徴量と特徴量の両方をキャプチャするデュアルブランチ顔特徴抽出器,(2)効率的なアイデンティティ統合のための条件付き適応正規化を併用した軽量なクロスモーダルアダプタ,(3)合成IDペアとビデオデータを組み合わせた2段階のトレーニング戦略を導入する。
- 参考スコア(独自算出の注目度): 42.910185323392554
- License:
- Abstract: We present Magic Mirror, a framework for generating identity-preserved videos with cinematic-level quality and dynamic motion. While recent advances in video diffusion models have shown impressive capabilities in text-to-video generation, maintaining consistent identity while producing natural motion remains challenging. Previous methods either require person-specific fine-tuning or struggle to balance identity preservation with motion diversity. Built upon Video Diffusion Transformers, our method introduces three key components: (1) a dual-branch facial feature extractor that captures both identity and structural features, (2) a lightweight cross-modal adapter with Conditioned Adaptive Normalization for efficient identity integration, and (3) a two-stage training strategy combining synthetic identity pairs with video data. Extensive experiments demonstrate that Magic Mirror effectively balances identity consistency with natural motion, outperforming existing methods across multiple metrics while requiring minimal parameters added. The code and model will be made publicly available at: https://github.com/dvlab-research/MagicMirror/
- Abstract(参考訳): 撮影レベルの品質とダイナミックな動きで、アイデンティティ保存されたビデオを生成するためのフレームワークであるMagic Mirrorを提示する。
近年の動画拡散モデルの進歩は、テキスト・ビデオ生成における印象的な能力を示しているが、自然な動きを生み出す一方で一貫したアイデンティティを維持することは依然として困難である。
従来の方法は、個人固有の微調整を必要とするか、アイデンティティ保存と動きの多様性のバランスをとるのに苦労する。
ビデオ拡散変換器をベースとして, 顔の特徴抽出器を2つ導入し, 特徴量と特徴量の両方を抽出し, 条件付き適応正規化を併用した軽量なクロスモーダルアダプタと, 合成同一性ペアと映像データを組み合わせた2段階のトレーニング戦略を導入する。
大規模な実験では、Magic Mirrorは自然運動とアイデンティティの整合性を効果的にバランスし、最小限のパラメータを追加しながら、既存のメソッドを複数のメトリクスで上回ります。
コードとモデルは、https://github.com/dvlab-research/MagicMirror/で公開されます。
関連論文リスト
- SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers [30.06494915665044]
ポートレート画像アニメーションを容易にするために,ビデオ拡散トランスフォーマを基盤としたSkyReels-A1を提案する。
SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動き伝達精度、アイデンティティ保持、時間的コヒーレンスを向上させる。
仮想アバター、リモート通信、デジタルメディア生成などの領域に適用可能である。
論文 参考訳(メタデータ) (2025-02-15T16:08:40Z) - EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion [3.592206475366951]
既存の手法は「コピー・ペースト」アーティファクトと類似性の低い問題に苦しむ。
テキストから高レベルなセマンティック機能を統合して、クリーンな顔認証表現をキャプチャするEchoVideoを提案する。
高品質で制御性があり、忠実なビデオを生成するのに優れた結果をもたらす。
論文 参考訳(メタデータ) (2025-01-23T08:06:11Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping [43.30061680192465]
ビデオ・フェイス・スワップに特化して設計された初めての拡散型フレームワークを提案する。
提案手法は,VidFaceVAEと組み合わせた特殊設計拡散モデルである。
本フレームワークは,従来の手法と比較して,アイデンティティの保存,時間的整合性,視覚的品質において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-15T18:58:32Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - Motion Control for Enhanced Complex Action Video Generation [17.98485830881648]
既存のテキスト・ツー・ビデオ(T2V)モデルは、十分に発音または複雑なアクションでビデオを生成するのに苦労することが多い。
そこで本稿では, 高精度な流体アクションで長編ビデオを生成するための新しいフレームワークであるMVideoを提案する。
MVideoは、追加の動作条件入力としてマスクシーケンスを組み込むことで、テキストプロンプトの制限を克服する。
論文 参考訳(メタデータ) (2024-11-13T04:20:45Z) - Magic-Me: Identity-Specific Video Customized Diffusion [72.05925155000165]
本稿では、VCD(Video Custom Diffusion)と呼ばれる、制御可能な被写体識別制御可能なビデオ生成フレームワークを提案する。
いくつかの画像によって定義された特定IDにより、VCDはアイデンティティ特性を強化し、安定したビデオ出力のためにフレームワイズ相関を注入する。
我々は、VCDがベースラインよりも優れたIDで安定した動画を生成可能であることを検証するために、広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-14T18:13:51Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - MAGVIT: Masked Generative Video Transformer [129.50814875955444]
我々は,MAsked Generative VIdeo Transformer(MAGVIT)を導入し,単一のモデルで様々なビデオ合成タスクに取り組む。
単一のMAGVITモデルは10の多様な生成タスクをサポートし、異なる視覚領域からのビデオ間で一般化する。
論文 参考訳(メタデータ) (2022-12-10T04:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。