Fugu-MT 論文翻訳(概要): ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning

論文の概要: ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning

arxiv url: http://arxiv.org/abs/2404.15449v1
Date: Tue, 23 Apr 2024 18:41:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-25 15:23:04.521634
Title: ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning
Title（参考訳）: ID-Aligner: 逆フィードバック学習によるID保存テキスト画像生成の強化
Authors: Weifeng Chen, Jiacheng Zhang, Jie Wu, Hefeng Wu, Xuefeng Xiao, Liang Lin,
Abstract要約: AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
参考スコア（独自算出の注目度）: 57.91881829308395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid development of diffusion models has triggered diverse applications. Identity-preserving text-to-image generation (ID-T2I) particularly has received significant attention due to its wide range of application scenarios like AI portrait and advertising. While existing ID-T2I methods have demonstrated impressive results, several key challenges remain: (1) It is hard to maintain the identity characteristics of reference portraits accurately, (2) The generated images lack aesthetic appeal especially while enforcing identity retention, and (3) There is a limitation that cannot be compatible with LoRA-based and Adapter-based methods simultaneously. To address these issues, we present \textbf{ID-Aligner}, a general feedback learning framework to enhance ID-T2I performance. To resolve identity features lost, we introduce identity consistency reward fine-tuning to utilize the feedback from face detection and recognition models to improve generated identity preservation. Furthermore, we propose identity aesthetic reward fine-tuning leveraging rewards from human-annotated preference data and automatically constructed feedback on character structure generation to provide aesthetic tuning signals. Thanks to its universal feedback fine-tuning framework, our method can be readily applied to both LoRA and Adapter models, achieving consistent performance gains. Extensive experiments on SD1.5 and SDXL diffusion models validate the effectiveness of our approach. \textbf{Project Page: \url{https://idaligner.github.io/}}
Abstract（参考訳）: 拡散モデルの急速な発展により、様々な応用がもたらされた。アイデンティティを保存するテキスト・ツー・イメージ生成(ID-T2I)は、AIポートレートや広告といった幅広いアプリケーションシナリオのために特に注目されている。既存のID-T2I法は印象的な結果を示したが,(1)参照肖像画のアイデンティティ特性を正確に維持することは困難,(2) 生成画像はアイデンティティ保持を強制する一方で審美的魅力を欠いている,(3) LoRA法とAdapter法を併用できない制限がある,といった課題が残されている。これらの問題に対処するため,ID-T2I 性能を向上させるための一般的なフィードバック学習フレームワークである \textbf{ID-Aligner} を提案する。失ったアイデンティティの特徴を解決するために,顔検出および認識モデルからのフィードバックを利用して生成したアイデンティティの保存を改善するために,識別整合性報酬の微調整を導入する。さらに,人間に通知された嗜好データから報奨を生かしたアイデンティティ美容報酬の微調整を提案し,文字構造生成に対するフィードバックを自動的に構築し,美的チューニング信号を提供する。その普遍的なフィードバックの微調整フレームワークのおかげで、我々の手法はLoRAモデルとAdapterモデルの両方に容易に適用でき、一貫した性能向上が達成できる。 SD1.5およびSDXL拡散モデルに関する大規模な実験により,本手法の有効性が検証された。 \textbf{Project Page: \url{https://idaligner.github.io/}}

関連論文リスト

Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。 IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-10-28T09:28:12Z)
WithAnyone: Towards Controllable and ID Consistent Image Generation [83.55786496542062]
アイデンティティ・一貫性・ジェネレーションは、テキスト・ツー・イメージ研究において重要な焦点となっている。マルチパーソンシナリオに適した大規模ペアデータセットを開発する。本稿では,データと多様性のバランスをとるためにペアデータを活用する,対照的なアイデンティティ損失を持つ新たなトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2025-10-16T17:59:54Z)
Personalized Face Super-Resolution with Identity Decoupling and Fitting [50.473357681579664]
極端な劣化シナリオでは、重要な属性とID情報が入力画像で著しく失われることが多い。既存の方法では、そのような条件下で幻覚顔を生成する傾向があり、真のID制約を欠いた復元画像を生成する。本稿ではIDデカップリング・フィッティング(IDFSR)を用いた新しいFSR手法を提案する。
論文参考訳（メタデータ） (2025-08-13T02:33:11Z)
Robust ID-Specific Face Restoration via Alignment Learning [18.869593414569206]
本稿では,拡散モデルに基づく新しい顔復元フレームワークであるRobust ID-Specific Face Restoration (RIDFR)を提案する。 RIDFRにはアライメント・ラーニング(Alignment Learning)が組み込まれており、複数の参照からの復元結果を同一のアイデンティティと整合させて、ID非関連顔のセマンティクスの干渉を抑制する。実験により、我々のフレームワークは最先端の手法よりも優れており、高品質なID固有の結果を高いアイデンティティの忠実度で再現し、強靭性を示す。
論文参考訳（メタデータ） (2025-07-15T03:16:12Z)
SD-ReID: View-aware Stable Diffusion for Aerial-Ground Person Re-Identification [61.753607285860944]
本稿では,AG-ReIDのためのSD-ReIDという2段階特徴学習フレームワークを提案する。第1段階では、粗粒度表現と制御可能な条件を抽出するために、簡単なViTベースモデルを訓練する。第2段階では、制御可能な条件で導かれる補完表現を学習するためにSDモデルを微調整する。
論文参考訳（メタデータ） (2025-04-13T12:44:50Z)
IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文参考訳（メタデータ） (2025-01-28T18:59:03Z)
PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。我々は、T2Vモデルにより合成されたビデオを直接監視する、textbfPersonalVideoと呼ばれる新しいフレームワークを提案する。本手法は,従来のT2Vモデルに固有の映像生成特性を保ちながら,高いアイデンティティ忠実度を実現する上での優位性であり,従来手法よりも優れていた。
論文参考訳（メタデータ） (2024-11-26T02:25:38Z)
Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文参考訳（メタデータ） (2024-09-27T19:31:04Z)
ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition [60.15830516741776]
合成顔認識(SFR)は、実際の顔データの分布を模倣するデータセットを生成することを目的としている。拡散燃料SFRモデルであるtextID3$を紹介します。 textID3$はID保存損失を利用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
論文参考訳（メタデータ） (2024-09-26T06:46:40Z)
Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文参考訳（メタデータ） (2024-03-18T13:39:53Z)
Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文参考訳（メタデータ） (2024-01-31T11:52:33Z)
InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文参考訳（メタデータ） (2024-01-15T07:50:18Z)
HFORD: High-Fidelity and Occlusion-Robust De-identification for Face Privacy Protection [60.63915939982923]
顔の身元特定は、身元保護問題を解決するための実践的な方法である。既存の顔の特定方法にはいくつかの問題がある。これらの問題に対処するために,HFORD(High-Fidelity and Occlusion-Robust De-identification)法を提案する。
論文参考訳（メタデータ） (2023-11-15T08:59:02Z)
Attribute-preserving Face Dataset Anonymization via Latent Code Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文参考訳（メタデータ） (2023-03-20T17:34:05Z)
Towards Unsupervised Deep Image Enhancement with Generative Adversarial Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T03:22:46Z)
Cross-Resolution Adversarial Dual Network for Person Re-Identification and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文参考訳（メタデータ） (2020-02-19T07:21:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。