論文の概要: SeFi-IDE: Semantic-Fidelity Identity Embedding for Personalized
Diffusion-Based Generation
- arxiv url: http://arxiv.org/abs/2402.00631v1
- Date: Wed, 31 Jan 2024 11:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:58:45.171184
- Title: SeFi-IDE: Semantic-Fidelity Identity Embedding for Personalized
Diffusion-Based Generation
- Title(参考訳): SeFi-IDE:パーソナライズされた拡散生成のためのセマンティック・フィデリティ・アイデンティティ・埋め込み
- Authors: Yang Li, Songlin Yang, Wei Wang, Jing Dong
- Abstract要約: 我々は、パーソナライズされた生成のための安定拡散モデルに埋め込まれた正確でセマンティックなIDに焦点を当てる。
具体的には、対象画像全体ではなく、顔領域に適合する顔の注意損失を提案する。
このトリックは、他の既存の概念とIDの精度と対話的な生成能力を大幅に向上させる。
- 参考スコア(独自算出の注目度): 23.748654463945567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced diffusion-based Text-to-Image (T2I) models, such as the Stable
Diffusion Model, have made significant progress in generating diverse and
high-quality images using text prompts alone. However, T2I models are unable to
accurately map identities (IDs) when non-famous users require personalized
image generation. The main problem is that existing T2I models do not learn the
ID-image alignments of new users. The previous methods either failed to
accurately fit the face region or lost the interactive generative ability with
other existing concepts in T2I models (i.e., unable to generate other concepts
described in given prompts such as scenes, actions, and facial attributes). In
this paper, we focus on accurate and semantic-fidelity ID embedding into the
Stable Diffusion Model for personalized generation. We address this challenge
from two perspectives: face-wise region fitting, and semantic-fidelity token
optimization. Specifically, we first visualize the attention overfit problem,
and propose a face-wise attention loss to fit the face region instead of the
whole target image. This key trick significantly enhances the ID accuracy and
interactive generative ability with other existing concepts. Then, we optimize
one ID representation as multiple per-stage tokens where each token contains
two disentangled features. This expansion of the textual conditioning space
enhances semantic-fidelity control. Extensive experiments validate that our
results exhibit superior ID accuracy and manipulation ability compared to
previous methods.
- Abstract(参考訳): 安定拡散モデルのような高度な拡散ベースのテキスト・ツー・イメージ(T2I)モデルは、テキストプロンプトだけで多彩で高品質な画像を生成することに大きく進歩した。
しかし、t2iモデルは、有名でないユーザーがパーソナライズされた画像生成を必要とする場合に正確なidをマッピングできない。
主な問題は、既存のT2Iモデルが新規ユーザのIDイメージアライメントを学習していないことである。
以前の手法は、顔領域に正確に適合しなかったり、他のT2Iモデル(シーン、アクション、顔属性など、与えられたプロンプトで記述された他の概念を生成できなかった)にインタラクティブな生成能力を失ったりした。
本稿では,パーソナライズされた生成のための安定拡散モデルに埋め込まれた正確かつセマンティックなIDに焦点を当てる。
本稿では,この課題を2つの視点から解決する。
具体的には,まず注意過剰問題の可視化を行い,対象画像全体ではなく顔領域に適合する顔方向注意損失を提案する。
この鍵となるトリックは、他の既存の概念とIDの精度と対話的な生成能力を大幅に向上させる。
次に、1つのid表現をステージ毎の複数のトークンとして最適化する。
このテキスト条件空間の拡張はセマンティック・フィデリティ制御を強化する。
広範な実験により,従来の手法よりも優れたid精度と操作能力が得られた。
関連論文リスト
- Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。
既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-18T10:32:51Z) - Face2Diffusion for Fast and Editable Face Personalization [33.65484538815936]
顔のパーソナライズのためのFace2Diffusion(F2D)を提案する。
F2Dの背後にある中核的な考え方は、トレーニングパイプラインからアイデンティティ非関連情報を削除することで、オーバーフィッティングの問題を防ぐことである。
F2Dは以下の3つの新しい構成要素から構成される。
論文 参考訳(メタデータ) (2024-03-08T06:46:01Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - Personalized Face Inpainting with Diffusion Models by Parallel Visual
Attention [55.33017432880408]
本稿では,パラレル視覚注意(PVA, Parallel Visual Attention, PVA)と拡散モデルとの併用による塗装結果の改善を提案する。
我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。
実験により, PVAは顔の塗り絵と顔の塗り絵の両面において, 言語指導タスクと相容れない同一性を持つことが示された。
論文 参考訳(メタデータ) (2023-12-06T15:39:03Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。