論文の概要: DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2601.01425v1
- Date: Sun, 04 Jan 2026 08:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.340481
- Title: DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer
- Title(参考訳): DreamID-V:DreamID-V:Deffusion Transformerによる高精細な顔スワッピングのための画像とビデオのギャップを埋める
- Authors: Xu Guo, Fulong Ye, Xinghui Li, Pengqi Tu, Pengze Zhang, Qichao Sun, Songtao Zhao, Xiangwang Hou, Qian He,
- Abstract要約: Video Face Swapping (VFS)は、ターゲットのビデオにソースIDをシームレスに注入する必要がある。
既存の方法は、時間的一貫性を維持しながら、アイデンティティの類似性と属性の保存を維持するのに苦労する。
本稿では,画像顔スワッピングの優位性をビデオ領域にシームレスに転送するための包括的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.788582116033684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Face Swapping (VFS) requires seamlessly injecting a source identity into a target video while meticulously preserving the original pose, expression, lighting, background, and dynamic information. Existing methods struggle to maintain identity similarity and attribute preservation while preserving temporal consistency. To address the challenge, we propose a comprehensive framework to seamlessly transfer the superiority of Image Face Swapping (IFS) to the video domain. We first introduce a novel data pipeline SyncID-Pipe that pre-trains an Identity-Anchored Video Synthesizer and combines it with IFS models to construct bidirectional ID quadruplets for explicit supervision. Building upon paired data, we propose the first Diffusion Transformer-based framework DreamID-V, employing a core Modality-Aware Conditioning module to discriminatively inject multi-model conditions. Meanwhile, we propose a Synthetic-to-Real Curriculum mechanism and an Identity-Coherence Reinforcement Learning strategy to enhance visual realism and identity consistency under challenging scenarios. To address the issue of limited benchmarks, we introduce IDBench-V, a comprehensive benchmark encompassing diverse scenes. Extensive experiments demonstrate DreamID-V outperforms state-of-the-art methods and further exhibits exceptional versatility, which can be seamlessly adapted to various swap-related tasks.
- Abstract(参考訳): Video Face Swapping (VFS)は、オリジナルポーズ、表情、照明、背景、動的情報を注意深く保存しながら、ソースIDをターゲットビデオにシームレスに注入する必要がある。
既存の方法は、時間的一貫性を維持しながら、アイデンティティの類似性と属性の保存を維持するのに苦労する。
この課題に対処するために、画像顔スワッピング(IFS)の優位性をビデオ領域にシームレスに転送する包括的なフレームワークを提案する。
まず、Identity-Anchored Video Synthesizerを事前学習し、IFSモデルと組み合わせて双方向ID四重奏曲を明示的な監視のために構築する、新しいデータパイプラインSyncID-Pipeを紹介する。
本稿では,Deffusion Transformerをベースとした最初のフレームワークDreamID-Vを提案する。
一方,難解なシナリオ下での視覚リアリズムとアイデンティティの整合性を高めるために,Synthetic-to-Real Curriculum機構とIdentity-Coherence Reinforcement Learning戦略を提案する。
限られたベンチマークの問題に対処するために、多様なシーンを含む包括的なベンチマークであるIDBench-Vを導入する。
大規模な実験では、DreamID-Vは最先端の手法よりも優れており、また、様々なスワップ関連タスクにシームレスに適応できる優れた万能性を示す。
関連論文リスト
- ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation [48.59900036213667]
大規模なデータセットで事前訓練されたビデオ生成モデルは高品質なビデオを生成することができるが、テキストや単一の画像に条件付けされることも多い。
本稿では,テキストプロンプトと参照画像から多目的映像を生成する新しいフレームワークであるID-Composerを紹介する。
論文 参考訳(メタデータ) (2025-11-01T11:29:14Z) - Proteus-ID: ID-Consistent and Motion-Coherent Video Customization [17.792780924370103]
ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。
この課題は、説明された外観や動作と整合しながらアイデンティティの整合性を維持すること、非現実的な剛性のない自然な流体運動を生成することである。
Proteus-IDは、アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための、新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-06-30T11:05:32Z) - SD-ReID: View-aware Stable Diffusion for Aerial-Ground Person Re-Identification [74.36139886192495]
本稿では,AG-ReID のための SD-ReID という新しい生成フレームワークを提案する。
まず、ViTベースのモデルを用いて人物表現を抽出し、個人性や視認性を含む制御可能な条件を抽出する。
次に、安定拡散(SD)モデルを微調整し、これらの制御可能な条件によって導かれる人物表現を強化する。
論文 参考訳(メタデータ) (2025-04-13T12:44:50Z) - Concat-ID: Towards Universal Identity-Preserving Video Synthesis [23.40342294656802]
Concat-IDは、アイデンティティ保存ビデオ合成のための統合されたフレームワークである。
それは、それらを組み込むための固有の3D自己認識機構にのみ依存する。
Concat-IDは、ID保存ビデオ合成のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-18T11:17:32Z) - HiFiVFS: High Fidelity Video Face Swapping [35.49571526968986]
Face swappingは、ソースからのIDとターゲットからの属性を組み合わせた結果を生成することを目的としている。
安定ビデオ拡散の強い生成能力と時間的先行を生かした高忠実度ビデオ顔交換フレームワークを提案する。
本手法は,映像面スワップにおける最新技術(SOTA)を質的かつ定量的に達成する。
論文 参考訳(メタデータ) (2024-11-27T12:30:24Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping [62.38898610210771]
そこで我々は,FaceDancerという顔のスワップとID転送のための新しい単一ステージ手法を提案する。
アダプティブ・フィーチャー・フュージョン・アテンション(AFFA)と解釈的特徴類似性規則化(IFSR)の2つの主要なコントリビューションがある。
論文 参考訳(メタデータ) (2022-10-19T11:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。