論文の概要: CA-IDD: Cross-Attention Guided Identity-Conditional Diffusion for Identity-Consistent Face Swapping
- arxiv url: http://arxiv.org/abs/2604.24493v1
- Date: Mon, 27 Apr 2026 13:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.063999
- Title: CA-IDD: Cross-Attention Guided Identity-Conditional Diffusion for Identity-Consistent Face Swapping
- Title(参考訳): CA-IDD:一貫した顔スワッピングのための相互注意ガイド付きID-Conditional Diffusion
- Authors: Md Shohel Rana, Tanoy Debnath,
- Abstract要約: 顔スワップは、ターゲット顔へのソース顔の同一性を活用することで、現実的な顔画像生成を最適化することを目的としている。
既存の方法、特にGANに基づく手法は、アイデンティティ保存と視覚リアリズムのバランスをとるのにしばしば苦労する。
本稿では、視線、アイデンティティ、顔解析を統合した最初の拡散型顔スワップアプローチであるCA-IDDを紹介する。
- 参考スコア(独自算出の注目度): 1.4323566945483497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face swapping aims to optimize realistic facial image generation by leveraging the identity of a source face onto a target face while preserving pose, expression, and context. However, existing methods, especially GAN-based methods, often struggle to balance identity preservation and visual realism due to limited controllability and mode collapse. In this paper, we introduce CA-IDD (Cross-Attention Guided Identity-Conditional Diffusion), the first diffusion-based face swapping approach that integrates multi-modal guidance comprising gaze, identity, and facial parsing through multi-scale cross-attention. Precomputed identity embeddings are incorporated into the denoising process via hierarchical attention layers, resulting in accurate and consistent identity transfer. To improve semantic coherence and visual quality, we use expert-guided supervision, with facial parsing and gaze-consistency modules. Unlike GAN-based or implicit-fusion methods, our diffusion framework provides stable training, robust generalization, and spatially adaptive identity alignment, allowing for fine-grained regional control across pose and expression variations. CA-IDD achieves an FID of 11.73, exceeding established baselines such as FaceShifter and MegaFS. Qualitative results also reveal improved identity retention across diverse poses, establishing CA-IDD as a strong foundation for future diffusion-based face editing.
- Abstract(参考訳): 顔スワッピングは、ポーズ、表現、コンテキストを保ちながら、ターゲット顔へのソース顔の同一性を活用することで、現実的な顔画像生成を最適化することを目的としている。
しかし、既存の手法、特にGANベースの手法は、制御可能性の制限とモード崩壊のため、アイデンティティ保存と視覚リアリズムのバランスをとるのに苦労することが多い。
本稿では, 視線, アイデンティティ, 顔解析を含むマルチモーダル誘導を統合した最初の拡散型顔交換方式であるCA-IDD(Cross-Attention Guided Identity-Conditional Diffusion)を紹介する。
事前計算されたアイデンティティの埋め込みは階層的な注意層を通じて認知プロセスに組み込まれ、正確で一貫したアイデンティティ転送をもたらす。
セマンティック・コヒーレンスと視覚的品質を改善するため,顔解析と視線一貫性モジュールを用いた専門家誘導型監視システムを開発した。
GANベースや暗黙の融合法とは異なり、我々の拡散フレームワークは安定したトレーニング、堅牢な一般化、空間適応的なアイデンティティアライメントを提供し、ポーズと表現のバリエーションをまたいできめ細かな局所的な制御を可能にする。
CA-IDDのFIDは11.73であり、FaceShifterやMegaFSといった既存のベースラインを超えている。
質的な結果はまた、多様なポーズにおけるアイデンティティ保持の改善を明らかにし、CA-IDDを将来の拡散ベースの顔編集の強力な基盤として確立した。
関連論文リスト
- Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement [54.199726425201895]
大規模モデルのマルチモーダル編集は、様々なタスクにまたがる強力な編集機能を示している。
現在の顔認証保存法は、顔認証と編集済み要素IPの整合性回復に苦慮している。
そこで我々は,頑健なアイデンティティ特異的顔復元のためのアライメント・ディスタングルメント・アンタングルメント・フレームワークであるEditedIDを提案する。
論文 参考訳(メタデータ) (2026-02-21T08:24:42Z) - FaceCrafter: Identity-Conditional Diffusion with Disentangled Control over Facial Pose, Expression, and Emotion [25.0180169554215]
本研究では,アイデンティティ保存を損なうことなく,ポーズ,表情,感情を正確に制御できる新しいアイデンティティ条件拡散モデルを提案する。
提案手法は,ポーズ,表情,感情に対する制御精度の点で既存の手法を超越し,アイデンティティのみの条件下での生成の多様性を向上させる。
論文 参考訳(メタデータ) (2025-05-21T09:43:21Z) - High-Fidelity Diffusion Face Swapping with ID-Constrained Facial Conditioning [39.09330483562798]
Face swappingは、ポーズや表現などのターゲット属性を保持しながら、ソースの顔認証をターゲットにシームレスに転送することを目的としている。
拡散モデルは、その優れた生成能力で知られており、最近、フェイススワッピングの品質を向上する可能性を示している。
本稿では,拡散型顔交換における2つの課題について述べる。
論文 参考訳(メタデータ) (2025-03-28T06:50:17Z) - HiFiVFS: High Fidelity Video Face Swapping [35.49571526968986]
Face swappingは、ソースからのIDとターゲットからの属性を組み合わせた結果を生成することを目的としている。
安定ビデオ拡散の強い生成能力と時間的先行を生かした高忠実度ビデオ顔交換フレームワークを提案する。
本手法は,映像面スワップにおける最新技術(SOTA)を質的かつ定量的に達成する。
論文 参考訳(メタデータ) (2024-11-27T12:30:24Z) - ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition [60.15830516741776]
合成顔認識(SFR)は、実際の顔データの分布を模倣するデータセットを生成することを目的としている。
拡散燃料SFRモデルであるtextID3$を紹介します。
textID3$はID保存損失を利用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
論文 参考訳(メタデータ) (2024-09-26T06:46:40Z) - FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping [62.38898610210771]
そこで我々は,FaceDancerという顔のスワップとID転送のための新しい単一ステージ手法を提案する。
アダプティブ・フィーチャー・フュージョン・アテンション(AFFA)と解釈的特徴類似性規則化(IFSR)の2つの主要なコントリビューションがある。
論文 参考訳(メタデータ) (2022-10-19T11:31:38Z) - Dual-Attention GAN for Large-Pose Face Frontalization [59.689836951934694]
本稿では,フォトリアリスティック顔フロンダル化のためのDA-GAN(Dual-Attention Generative Adversarial Network)を提案する。
具体的には、ローカル機能と長距離依存関係を統合するために、自己アテンションベースのジェネレータが導入された。
顔領域の局所的特徴を強調するために,新しい顔認識に基づく識別器を適用した。
論文 参考訳(メタデータ) (2020-02-17T20:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。