Fugu-MT 論文翻訳(概要): CA-IDD: Cross-Attention Guided Identity-Conditional Diffusion for Identity-Consistent Face Swapping

論文の概要: CA-IDD: Cross-Attention Guided Identity-Conditional Diffusion for Identity-Consistent Face Swapping

arxiv url: http://arxiv.org/abs/2604.24493v1
Date: Mon, 27 Apr 2026 13:59:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:08.063999
Title: CA-IDD: Cross-Attention Guided Identity-Conditional Diffusion for Identity-Consistent Face Swapping
Title（参考訳）: CA-IDD:一貫した顔スワッピングのための相互注意ガイド付きID-Conditional Diffusion
Authors: Md Shohel Rana, Tanoy Debnath,
Abstract要約: 顔スワップは、ターゲット顔へのソース顔の同一性を活用することで、現実的な顔画像生成を最適化することを目的としている。既存の方法、特にGANに基づく手法は、アイデンティティ保存と視覚リアリズムのバランスをとるのにしばしば苦労する。本稿では、視線、アイデンティティ、顔解析を統合した最初の拡散型顔スワップアプローチであるCA-IDDを紹介する。
参考スコア（独自算出の注目度）: 1.4323566945483497
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Face swapping aims to optimize realistic facial image generation by leveraging the identity of a source face onto a target face while preserving pose, expression, and context. However, existing methods, especially GAN-based methods, often struggle to balance identity preservation and visual realism due to limited controllability and mode collapse. In this paper, we introduce CA-IDD (Cross-Attention Guided Identity-Conditional Diffusion), the first diffusion-based face swapping approach that integrates multi-modal guidance comprising gaze, identity, and facial parsing through multi-scale cross-attention. Precomputed identity embeddings are incorporated into the denoising process via hierarchical attention layers, resulting in accurate and consistent identity transfer. To improve semantic coherence and visual quality, we use expert-guided supervision, with facial parsing and gaze-consistency modules. Unlike GAN-based or implicit-fusion methods, our diffusion framework provides stable training, robust generalization, and spatially adaptive identity alignment, allowing for fine-grained regional control across pose and expression variations. CA-IDD achieves an FID of 11.73, exceeding established baselines such as FaceShifter and MegaFS. Qualitative results also reveal improved identity retention across diverse poses, establishing CA-IDD as a strong foundation for future diffusion-based face editing.
Abstract（参考訳）: 顔スワッピングは、ポーズ、表現、コンテキストを保ちながら、ターゲット顔へのソース顔の同一性を活用することで、現実的な顔画像生成を最適化することを目的としている。しかし、既存の手法、特にGANベースの手法は、制御可能性の制限とモード崩壊のため、アイデンティティ保存と視覚リアリズムのバランスをとるのに苦労することが多い。本稿では, 視線, アイデンティティ, 顔解析を含むマルチモーダル誘導を統合した最初の拡散型顔交換方式であるCA-IDD(Cross-Attention Guided Identity-Conditional Diffusion)を紹介する。事前計算されたアイデンティティの埋め込みは階層的な注意層を通じて認知プロセスに組み込まれ、正確で一貫したアイデンティティ転送をもたらす。セマンティック・コヒーレンスと視覚的品質を改善するため,顔解析と視線一貫性モジュールを用いた専門家誘導型監視システムを開発した。 GANベースや暗黙の融合法とは異なり、我々の拡散フレームワークは安定したトレーニング、堅牢な一般化、空間適応的なアイデンティティアライメントを提供し、ポーズと表現のバリエーションをまたいできめ細かな局所的な制御を可能にする。 CA-IDDのFIDは11.73であり、FaceShifterやMegaFSといった既存のベースラインを超えている。質的な結果はまた、多様なポーズにおけるアイデンティティ保持の改善を明らかにし、CA-IDDを将来の拡散ベースの顔編集の強力な基盤として確立した。

論文の概要: CA-IDD: Cross-Attention Guided Identity-Conditional Diffusion for Identity-Consistent Face Swapping

関連論文リスト