論文の概要: ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning
- arxiv url: http://arxiv.org/abs/2404.15449v1
- Date: Tue, 23 Apr 2024 18:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 15:23:04.521634
- Title: ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning
- Title(参考訳): ID-Aligner: 逆フィードバック学習によるID保存テキスト画像生成の強化
- Authors: Weifeng Chen, Jiacheng Zhang, Jie Wu, Hefeng Wu, Xuefeng Xiao, Liang Lin,
- Abstract要約: AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
- 参考スコア(独自算出の注目度): 57.91881829308395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of diffusion models has triggered diverse applications. Identity-preserving text-to-image generation (ID-T2I) particularly has received significant attention due to its wide range of application scenarios like AI portrait and advertising. While existing ID-T2I methods have demonstrated impressive results, several key challenges remain: (1) It is hard to maintain the identity characteristics of reference portraits accurately, (2) The generated images lack aesthetic appeal especially while enforcing identity retention, and (3) There is a limitation that cannot be compatible with LoRA-based and Adapter-based methods simultaneously. To address these issues, we present \textbf{ID-Aligner}, a general feedback learning framework to enhance ID-T2I performance. To resolve identity features lost, we introduce identity consistency reward fine-tuning to utilize the feedback from face detection and recognition models to improve generated identity preservation. Furthermore, we propose identity aesthetic reward fine-tuning leveraging rewards from human-annotated preference data and automatically constructed feedback on character structure generation to provide aesthetic tuning signals. Thanks to its universal feedback fine-tuning framework, our method can be readily applied to both LoRA and Adapter models, achieving consistent performance gains. Extensive experiments on SD1.5 and SDXL diffusion models validate the effectiveness of our approach. \textbf{Project Page: \url{https://idaligner.github.io/}}
- Abstract(参考訳): 拡散モデルの急速な発展により、様々な応用がもたらされた。
アイデンティティを保存するテキスト・ツー・イメージ生成(ID-T2I)は、AIポートレートや広告といった幅広いアプリケーションシナリオのために特に注目されている。
既存のID-T2I法は印象的な結果を示したが,(1)参照肖像画のアイデンティティ特性を正確に維持することは困難,(2) 生成画像はアイデンティティ保持を強制する一方で審美的魅力を欠いている,(3) LoRA法とAdapter法を併用できない制限がある,といった課題が残されている。
これらの問題に対処するため,ID-T2I 性能を向上させるための一般的なフィードバック学習フレームワークである \textbf{ID-Aligner} を提案する。
失ったアイデンティティの特徴を解決するために,顔検出および認識モデルからのフィードバックを利用して生成したアイデンティティの保存を改善するために,識別整合性報酬の微調整を導入する。
さらに,人間に通知された嗜好データから報奨を生かしたアイデンティティ美容報酬の微調整を提案し,文字構造生成に対するフィードバックを自動的に構築し,美的チューニング信号を提供する。
その普遍的なフィードバックの微調整フレームワークのおかげで、我々の手法はLoRAモデルとAdapterモデルの両方に容易に適用でき、一貫した性能向上が達成できる。
SD1.5およびSDXL拡散モデルに関する大規模な実験により,本手法の有効性が検証された。
\textbf{Project Page: \url{https://idaligner.github.io/}}
関連論文リスト
- Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文 参考訳(メタデータ) (2024-01-15T07:50:18Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - HFORD: High-Fidelity and Occlusion-Robust De-identification for Face
Privacy Protection [60.63915939982923]
顔の身元特定は、身元保護問題を解決するための実践的な方法である。
既存の顔の特定方法にはいくつかの問題がある。
これらの問題に対処するために,HFORD(High-Fidelity and Occlusion-Robust De-identification)法を提案する。
論文 参考訳(メタデータ) (2023-11-15T08:59:02Z) - PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion
Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。
1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-11T19:59:43Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z) - StyleID: Identity Disentanglement for Anonymizing Faces [4.048444203617942]
この論文の主な貢献は、フィーチャ保存の匿名化フレームワークであるStyleIDの設計である。
コントリビューションの一環として,新しいアンタングル化指標,補足的アンタングル化法,およびアイデンティティ・アンタングル化に関する新たな知見を提示する。
StyleIDはチューナブルなプライバシを提供し、計算の複雑さが低く、現在の最先端ソリューションを上回っている。
論文 参考訳(メタデータ) (2022-12-28T12:04:24Z) - Semantic Consistency and Identity Mapping Multi-Component Generative
Adversarial Network for Person Re-Identification [39.605062525247135]
本稿では,1つのドメインから複数のドメインへのスタイル適応を提供する,意味一貫性とアイデンティティマッピングの多成分生成対向ネットワーク(SC-IMGAN)を提案する。
提案手法は,6つの挑戦的人物リidデータセットにおける最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-28T14:12:29Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。