論文の概要: ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning
- arxiv url: http://arxiv.org/abs/2404.15449v1
- Date: Tue, 23 Apr 2024 18:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 15:23:04.521634
- Title: ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning
- Title(参考訳): ID-Aligner: 逆フィードバック学習によるID保存テキスト画像生成の強化
- Authors: Weifeng Chen, Jiacheng Zhang, Jie Wu, Hefeng Wu, Xuefeng Xiao, Liang Lin,
- Abstract要約: AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
- 参考スコア(独自算出の注目度): 57.91881829308395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of diffusion models has triggered diverse applications. Identity-preserving text-to-image generation (ID-T2I) particularly has received significant attention due to its wide range of application scenarios like AI portrait and advertising. While existing ID-T2I methods have demonstrated impressive results, several key challenges remain: (1) It is hard to maintain the identity characteristics of reference portraits accurately, (2) The generated images lack aesthetic appeal especially while enforcing identity retention, and (3) There is a limitation that cannot be compatible with LoRA-based and Adapter-based methods simultaneously. To address these issues, we present \textbf{ID-Aligner}, a general feedback learning framework to enhance ID-T2I performance. To resolve identity features lost, we introduce identity consistency reward fine-tuning to utilize the feedback from face detection and recognition models to improve generated identity preservation. Furthermore, we propose identity aesthetic reward fine-tuning leveraging rewards from human-annotated preference data and automatically constructed feedback on character structure generation to provide aesthetic tuning signals. Thanks to its universal feedback fine-tuning framework, our method can be readily applied to both LoRA and Adapter models, achieving consistent performance gains. Extensive experiments on SD1.5 and SDXL diffusion models validate the effectiveness of our approach. \textbf{Project Page: \url{https://idaligner.github.io/}}
- Abstract(参考訳): 拡散モデルの急速な発展により、様々な応用がもたらされた。
アイデンティティを保存するテキスト・ツー・イメージ生成(ID-T2I)は、AIポートレートや広告といった幅広いアプリケーションシナリオのために特に注目されている。
既存のID-T2I法は印象的な結果を示したが,(1)参照肖像画のアイデンティティ特性を正確に維持することは困難,(2) 生成画像はアイデンティティ保持を強制する一方で審美的魅力を欠いている,(3) LoRA法とAdapter法を併用できない制限がある,といった課題が残されている。
これらの問題に対処するため,ID-T2I 性能を向上させるための一般的なフィードバック学習フレームワークである \textbf{ID-Aligner} を提案する。
失ったアイデンティティの特徴を解決するために,顔検出および認識モデルからのフィードバックを利用して生成したアイデンティティの保存を改善するために,識別整合性報酬の微調整を導入する。
さらに,人間に通知された嗜好データから報奨を生かしたアイデンティティ美容報酬の微調整を提案し,文字構造生成に対するフィードバックを自動的に構築し,美的チューニング信号を提供する。
その普遍的なフィードバックの微調整フレームワークのおかげで、我々の手法はLoRAモデルとAdapterモデルの両方に容易に適用でき、一貫した性能向上が達成できる。
SD1.5およびSDXL拡散モデルに関する大規模な実験により,本手法の有効性が検証された。
\textbf{Project Page: \url{https://idaligner.github.io/}}
関連論文リスト
- PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
我々は、T2Vモデルにより合成されたビデオを直接監視する、textbfPersonalVideoと呼ばれる新しいフレームワークを提案する。
本手法は,従来のT2Vモデルに固有の映像生成特性を保ちながら,高いアイデンティティ忠実度を実現する上での優位性であり,従来手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition [60.15830516741776]
合成顔認識(SFR)は、実際の顔データの分布を模倣するデータセットを生成することを目的としている。
拡散燃料SFRモデルであるtextID3$を紹介します。
textID3$はID保存損失を利用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
論文 参考訳(メタデータ) (2024-09-26T06:46:40Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文 参考訳(メタデータ) (2024-01-15T07:50:18Z) - HFORD: High-Fidelity and Occlusion-Robust De-identification for Face
Privacy Protection [60.63915939982923]
顔の身元特定は、身元保護問題を解決するための実践的な方法である。
既存の顔の特定方法にはいくつかの問題がある。
これらの問題に対処するために,HFORD(High-Fidelity and Occlusion-Robust De-identification)法を提案する。
論文 参考訳(メタデータ) (2023-11-15T08:59:02Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。