論文の概要: Zero-shot Face Editing via ID-Attribute Decoupled Inversion
- arxiv url: http://arxiv.org/abs/2510.11050v1
- Date: Mon, 13 Oct 2025 06:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.222952
- Title: Zero-shot Face Editing via ID-Attribute Decoupled Inversion
- Title(参考訳): ID属性分離型インバージョンによるゼロショット顔編集
- Authors: Yang Hou, Minggu Wang, Jianjun Zhao,
- Abstract要約: 本稿では,ID-Attribute Decoupled Inversionに基づくゼロショット顔編集手法を提案する。
我々は、顔表現をIDと属性の特徴に分解し、それらを共同条件として、逆拡散過程と逆拡散過程の両方を導出する。
本手法は,領域固有の入力を必要とせず,テキストプロンプトのみを用いた複雑な多属性顔編集タスクをサポートし,DDIMインバージョンに匹敵する速度で動作する。
- 参考スコア(独自算出の注目度): 5.695436409400152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in text-guided diffusion models have shown promise for general image editing via inversion techniques, but often struggle to maintain ID and structural consistency in real face editing tasks. To address this limitation, we propose a zero-shot face editing method based on ID-Attribute Decoupled Inversion. Specifically, we decompose the face representation into ID and attribute features, using them as joint conditions to guide both the inversion and the reverse diffusion processes. This allows independent control over ID and attributes, ensuring strong ID preservation and structural consistency while enabling precise facial attribute manipulation. Our method supports a wide range of complex multi-attribute face editing tasks using only text prompts, without requiring region-specific input, and operates at a speed comparable to DDIM inversion. Comprehensive experiments demonstrate its practicality and effectiveness.
- Abstract(参考訳): テキスト誘導拡散モデルの最近の進歩は、インバージョン技術による一般的な画像編集を約束しているが、実際の顔編集タスクにおいてIDと構造的整合性を維持するのに苦労することが多い。
この制限に対処するため,ID-Attribute Decoupled Inversionに基づくゼロショット顔編集手法を提案する。
具体的には、顔表現をIDと属性の特徴に分解し、それらを連立条件として、逆拡散過程と逆拡散過程の両方を導出する。
これにより、IDと属性を独立に制御し、強力なID保存と構造的一貫性を確保しながら、正確な顔属性操作を可能にする。
本手法は,領域固有の入力を必要とせず,テキストプロンプトのみを用いた複雑な多属性顔編集タスクをサポートし,DDIMインバージョンに匹敵する速度で動作する。
総合的な実験は、その実用性と効果を実証する。
関連論文リスト
- SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。
編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。
本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文 参考訳(メタデータ) (2025-10-06T17:51:04Z) - Personalized Face Super-Resolution with Identity Decoupling and Fitting [50.473357681579664]
極端な劣化シナリオでは、重要な属性とID情報が入力画像で著しく失われることが多い。
既存の方法では、そのような条件下で幻覚顔を生成する傾向があり、真のID制約を欠いた復元画像を生成する。
本稿ではIDデカップリング・フィッティング(IDFSR)を用いた新しいFSR手法を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:33:11Z) - ID-EA: Identity-driven Text Enhancement and Adaptation with Textual Inversion for Personalized Text-to-Image Generation [33.84646269805187]
ID-EAは、テキストの埋め込みを視覚的アイデンティティの埋め込みに合わせてガイドする新しいフレームワークである。
ID-EAはアイデンティティ保存の指標において最先端の手法を大幅に上回っている。
パーソナライズされた肖像画は、既存のアプローチの15倍の速さで生成される。
論文 参考訳(メタデータ) (2025-07-16T07:42:02Z) - EditID: Training-Free Editable ID Customization for Text-to-Image Generation [12.168520751389622]
テキストから画像生成まで高度に編集可能なカスタマイズIDを実現するための,DiTアーキテクチャに基づくトレーニング不要のアプローチであるEditIDを提案する。
プロンプトを通じて顔の向き、文字属性、その他の特徴を変更することは困難である。
EditIDは、DiTアーキテクチャ上でカスタマイズ可能なID編集性を提案する最初のテキスト・ツー・イメージソリューションである。
論文 参考訳(メタデータ) (2025-03-16T14:41:30Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - ManiCLIP: Multi-Attribute Face Manipulation from Text [104.30600573306991]
テキスト記述に基づく新しい多属性顔操作法を提案する。
本手法は,テキスト関連属性の編集を最小限に抑えた自然な顔を生成する。
論文 参考訳(メタデータ) (2022-10-02T07:22:55Z) - Learning Disentangled Representation for One-shot Progressive Face Swapping [92.09538942684539]
ジェネレーティブ・アドバーサリアル・ネットワークに基づくワンショット・フェイススワップのためのシンプルで効率的なFaceSwapperを提案する。
提案手法は,不整合表現モジュールと意味誘導融合モジュールから構成される。
本手法は,トレーニングサンプルの少ないベンチマークデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2022-03-24T11:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。