論文の概要: Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement
- arxiv url: http://arxiv.org/abs/2602.18752v1
- Date: Sat, 21 Feb 2026 08:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.291825
- Title: Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement
- Title(参考訳): 多モード大モデルにおけるID一貫性の最適化:アライメント、絡み合い、絡み合いによる顔の復元
- Authors: Yuran Dong, Hang Dai, Mang Ye,
- Abstract要約: 大規模モデルのマルチモーダル編集は、様々なタスクにまたがる強力な編集機能を示している。
現在の顔認証保存法は、顔認証と編集済み要素IPの整合性回復に苦慮している。
そこで我々は,頑健なアイデンティティ特異的顔復元のためのアライメント・ディスタングルメント・アンタングルメント・フレームワークであるEditedIDを提案する。
- 参考スコア(独自算出の注目度): 54.199726425201895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal editing large models have demonstrated powerful editing capabilities across diverse tasks. However, a persistent and long-standing limitation is the decline in facial identity (ID) consistency during realistic portrait editing. Due to the human eye's high sensitivity to facial features, such inconsistency significantly hinders the practical deployment of these models. Current facial ID preservation methods struggle to achieve consistent restoration of both facial identity and edited element IP due to Cross-source Distribution Bias and Cross-source Feature Contamination. To address these issues, we propose EditedID, an Alignment-Disentanglement-Entanglement framework for robust identity-specific facial restoration. By systematically analyzing diffusion trajectories, sampler behaviors, and attention properties, we introduce three key components: 1) Adaptive mixing strategy that aligns cross-source latent representations throughout the diffusion process. 2) Hybrid solver that disentangles source-specific identity attributes and details. 3) Attentional gating mechanism that selectively entangles visual elements. Extensive experiments show that EditedID achieves state-of-the-art performance in preserving original facial ID and edited element IP consistency. As a training-free and plug-and-play solution, it establishes a new benchmark for practical and reliable single/multi-person facial identity restoration in open-world settings, paving the way for the deployment of multimodal editing large models in real-person editing scenarios. The code is available at https://github.com/NDYBSNDY/EditedID.
- Abstract(参考訳): 大規模モデルのマルチモーダル編集は、様々なタスクにまたがる強力な編集機能を示している。
しかし、永続的で長期にわたる制限は、現実的な肖像画編集における顔のアイデンティティ(ID)の一貫性の低下である。
人間の目の顔の特徴に対する感度が高いため、このような不整合はこれらのモデルの実用的展開を著しく妨げている。
現在の顔認証は, クロスソース分布バイアスとクロスソース特徴汚染による顔認証と編集要素IPの整合性回復に苦慮している。
これらの課題に対処するために,頑健なアイデンティティ特異的顔復元のためのアライメント・ディスタングルメント・アンタングルメント・フレームワークであるEditedIDを提案する。
拡散軌道, サンプリング動作, 注意特性を系統的に解析することにより, 3つの重要な要素を紹介する。
1)拡散過程全体を通して、ソース間の遅延表現を整列する適応混合戦略。
2)ソース固有のアイデンティティ属性と詳細をアンタングルするハイブリッドソルバ。
3)視覚的要素を選択的に絡み合わせる意図的ゲーティング機構。
拡張実験により、編集済みIDは元の顔IDと編集済み要素IP一貫性を維持する上で最先端のパフォーマンスを達成することが示された。
トレーニングフリーでプラグアンドプレイのソリューションとして、オープンワールド環境で実用的で信頼性の高いシングル/マルチパーソンの顔認証を復元するための新しいベンチマークを確立し、リアルタイム編集シナリオにおいて、大規模なモデルをマルチモーダルに編集するための道を開く。
コードはhttps://github.com/NDYBSNDY/EditedIDで入手できる。
関連論文リスト
- Zero-shot Face Editing via ID-Attribute Decoupled Inversion [5.695436409400152]
本稿では,ID-Attribute Decoupled Inversionに基づくゼロショット顔編集手法を提案する。
我々は、顔表現をIDと属性の特徴に分解し、それらを共同条件として、逆拡散過程と逆拡散過程の両方を導出する。
本手法は,領域固有の入力を必要とせず,テキストプロンプトのみを用いた複雑な多属性顔編集タスクをサポートし,DDIMインバージョンに匹敵する速度で動作する。
論文 参考訳(メタデータ) (2025-10-13T06:34:40Z) - From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts [69.44297222099175]
顔の特徴の異なるが相互に強化された側面を捉えた顔専門家の混合(MoFE)を導入する。
データセットの制限を軽減するため、私たちは、Face ConstraintsとIdentity Consistencyという2つの重要な側面を中心としたデータ処理パイプラインを調整しました。
我々は、既存のオープンソースヒューマンビデオデータセットからLFA(Large Face Angles)データセットをキュレートし、洗練しました。
論文 参考訳(メタデータ) (2025-08-13T04:10:16Z) - Personalized Face Super-Resolution with Identity Decoupling and Fitting [50.473357681579664]
極端な劣化シナリオでは、重要な属性とID情報が入力画像で著しく失われることが多い。
既存の方法では、そのような条件下で幻覚顔を生成する傾向があり、真のID制約を欠いた復元画像を生成する。
本稿ではIDデカップリング・フィッティング(IDFSR)を用いた新しいFSR手法を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:33:11Z) - DynamicID: Zero-Shot Multi-ID Image Personalization with Flexible Facial Editability [12.692129257068085]
シングルIDとマルチIDパーソナライズされた生成を本質的に促進する,チューニング不要なフレームワークであるDynamicIDを提案する。
主なイノベーションは,(1)ID特徴注入時のベースモデルの破壊を最小限に抑えるためのクエリレベルのアクティベーションゲーティング(SAA)と,トレーニング中に複数IDサンプルを必要とせずにマルチIDパーソナライゼーションを実現するためのクエリレベルのアクティベートゲーティングゲーティング(SAA),2)顔の動作とアイデンティティ機能を効果的にアンタングルするために特徴空間操作を適用したID-Motion Reconfigurator(IMR),3)データ依存を減らすタスク分離トレーニングパラダイムであるVariFace-10k(VariFace-10k)である。
論文 参考訳(メタデータ) (2025-03-09T08:16:19Z) - ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving [64.90148669690228]
ConsistentIDは、微細なマルチモーダル顔のプロンプト下での多彩な画像生成のための革新的な手法である。
我々は、50万以上の顔画像を持つ、きめ細かいポートレートデータセットFGIDを提示し、既存の顔データセットよりも多様性と包括性を提供する。
論文 参考訳(メタデータ) (2024-04-25T17:23:43Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。