論文の概要: DreamID: High-Fidelity and Fast diffusion-based Face Swapping via Triplet ID Group Learning
- arxiv url: http://arxiv.org/abs/2504.14509v3
- Date: Fri, 25 Apr 2025 03:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.700624
- Title: DreamID: High-Fidelity and Fast diffusion-based Face Swapping via Triplet ID Group Learning
- Title(参考訳): DreamID:Triplet IDグループ学習による高忠実で高速な拡散型顔スワップ
- Authors: Fulong Ye, Miao Hua, Pengze Zhang, Xinghui Li, Qichao Sun, Songtao Zhao, Qian He, Xinglong Wu,
- Abstract要約: DreamIDは、高レベルのID類似性、属性保存、画像の忠実性、高速推論速度を実現する拡散ベースの顔交換モデルである。
本稿では,SwapNet,FaceNet,IDAdapterを組み合わせた拡散モデルアーキテクチャを提案する。
DreamIDは、アイデンティティの類似性、ポーズと表現の保存、イメージの忠実性の観点から、最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 8.184155602678754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce DreamID, a diffusion-based face swapping model that achieves high levels of ID similarity, attribute preservation, image fidelity, and fast inference speed. Unlike the typical face swapping training process, which often relies on implicit supervision and struggles to achieve satisfactory results. DreamID establishes explicit supervision for face swapping by constructing Triplet ID Group data, significantly enhancing identity similarity and attribute preservation. The iterative nature of diffusion models poses challenges for utilizing efficient image-space loss functions, as performing time-consuming multi-step sampling to obtain the generated image during training is impractical. To address this issue, we leverage the accelerated diffusion model SD Turbo, reducing the inference steps to a single iteration, enabling efficient pixel-level end-to-end training with explicit Triplet ID Group supervision. Additionally, we propose an improved diffusion-based model architecture comprising SwapNet, FaceNet, and ID Adapter. This robust architecture fully unlocks the power of the Triplet ID Group explicit supervision. Finally, to further extend our method, we explicitly modify the Triplet ID Group data during training to fine-tune and preserve specific attributes, such as glasses and face shape. Extensive experiments demonstrate that DreamID outperforms state-of-the-art methods in terms of identity similarity, pose and expression preservation, and image fidelity. Overall, DreamID achieves high-quality face swapping results at 512*512 resolution in just 0.6 seconds and performs exceptionally well in challenging scenarios such as complex lighting, large angles, and occlusions.
- Abstract(参考訳): 本稿では,高レベルのID類似性,属性保存,画像の忠実度,高速推論速度を実現する拡散型顔交換モデルであるDreamIDを紹介する。
典型的な顔交換トレーニングプロセスとは異なり、暗黙の監督と満足な結果を得るために苦労することが多い。
DreamIDは、Triplet ID Groupデータを構築することで、顔交換の明確な監督を確立し、アイデンティティの類似性と属性保存を大幅に強化する。
拡散モデルの反復的な性質は、訓練中に生成された画像を得るのに時間を要する多段階サンプリングを実行することは現実的ではないため、効率的な画像空間損失関数を利用するための課題を提起する。
この問題に対処するために,高速化拡散モデルSD Turboを活用し,推論ステップを1イテレーションに短縮し,Triplet ID Group による効率的なエンドツーエンドトレーニングを実現する。
さらに,SwapNet,FaceNet,IDAdapterを含む拡散モデルアーキテクチャの改良を提案する。
この堅牢なアーキテクチャは、Triplet ID Groupの明確な監督力を完全に解放する。
最後に,本手法をさらに拡張するために,トレーニング中にTriplet ID Groupデータを明示的に修正し,眼鏡や顔形状などの特定の属性を微調整し,保存する。
広範囲にわたる実験により、DreamIDはアイデンティティの類似性、ポーズと表現の保存、イメージの忠実さで最先端の手法より優れていることが示されている。
全体として、DreamIDは512*512の解像度でわずか0.6秒で高品質な顔交換結果を達成し、複雑な照明、大きな角度、オクルージョンといった困難なシナリオで非常によく機能する。
関連論文リスト
- VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping [43.30061680192465]
ビデオ・フェイス・スワップに特化して設計された初めての拡散型フレームワークを提案する。
提案手法は,VidFaceVAEと組み合わせた特殊設計拡散モデルである。
本フレームワークは,従来の手法と比較して,アイデンティティの保存,時間的整合性,視覚的品質において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-15T18:58:32Z) - EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation [8.314556078632412]
ポートレート生成における極めて詳細な表現(RGBレベル)と高忠実度IDの同時制御を可能にする,最初のエンドツーエンドソリューションであるEmojiDiffを紹介する。
分離学習では、ID非関連データイテレーション(IDI)を改良し、相互同一性表現ペアを合成する。
また,さらに微調整を行うために,ID強化コントラストアライメント(ICA)を提案する。
論文 参考訳(メタデータ) (2024-12-02T08:24:11Z) - HiFiVFS: High Fidelity Video Face Swapping [35.49571526968986]
Face swappingは、ソースからのIDとターゲットからの属性を組み合わせた結果を生成することを目的としている。
安定ビデオ拡散の強い生成能力と時間的先行を生かした高忠実度ビデオ顔交換フレームワークを提案する。
本手法は,映像面スワップにおける最新技術(SOTA)を質的かつ定量的に達成する。
論文 参考訳(メタデータ) (2024-11-27T12:30:24Z) - ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition [60.15830516741776]
合成顔認識(SFR)は、実際の顔データの分布を模倣するデータセットを生成することを目的としている。
拡散燃料SFRモデルであるtextID3$を紹介します。
textID3$はID保存損失を利用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
論文 参考訳(メタデータ) (2024-09-26T06:46:40Z) - FPGA: Flexible Portrait Generation Approach [11.002947043723617]
我々は,100万レベルのマルチモーダルデータセットIDZoomをトレーニング用に構築するFPGAと呼ばれる包括的システムを提案する。
FPGA は Multi-Mode Fusion Training Strategy (MMF) と DDIM Inversion based ID Restoration Inference framework (DIIR) から構成される。
DIIRはプラグアンドプレイであり、どんな拡散ベースのポートレート生成にも適用でき、性能が向上する。
論文 参考訳(メタデータ) (2024-08-17T16:34:03Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - Camera-aware Proxies for Unsupervised Person Re-Identification [60.26031011794513]
本稿では、アノテーションを必要としない純粋に教師なしの人物識別(Re-ID)問題に取り組む。
各クラスタを複数のプロキシに分割し、それぞれのプロキシが同じカメラからのインスタンスを表すことを提案する。
カメラ認識プロキシに基づいて、カメラ内およびカメラ間コントラスト学習コンポーネントをre-idモデル用に設計する。
論文 参考訳(メタデータ) (2020-12-19T12:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。