論文の概要: Personalized Image Generation with Deep Generative Models: A Decade Survey
- arxiv url: http://arxiv.org/abs/2502.13081v1
- Date: Tue, 18 Feb 2025 17:34:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:06:50.817517
- Title: Personalized Image Generation with Deep Generative Models: A Decade Survey
- Title(参考訳): 深部生成モデルを用いたパーソナライズされた画像生成:10年にわたる調査
- Authors: Yuxiang Wei, Yiheng Zheng, Yabo Zhang, Ming Liu, Zhilong Ji, Lei Zhang, Wangmeng Zuo,
- Abstract要約: 本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。
まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。
次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
- 参考スコア(独自算出の注目度): 51.26287478042516
- License:
- Abstract: Recent advancements in generative models have significantly facilitated the development of personalized content creation. Given a small set of images with user-specific concept, personalized image generation allows to create images that incorporate the specified concept and adhere to provided text descriptions. Due to its wide applications in content creation, significant effort has been devoted to this field in recent years. Nonetheless, the technologies used for personalization have evolved alongside the development of generative models, with their distinct and interrelated components. In this survey, we present a comprehensive review of generalized personalized image generation across various generative models, including traditional GANs, contemporary text-to-image diffusion models, and emerging multi-model autoregressive models. We first define a unified framework that standardizes the personalization process across different generative models, encompassing three key components, i.e., inversion spaces, inversion methods, and personalization schemes. This unified framework offers a structured approach to dissecting and comparing personalization techniques across different generative architectures. Building upon this unified framework, we further provide an in-depth analysis of personalization techniques within each generative model, highlighting their unique contributions and innovations. Through comparative analysis, this survey elucidates the current landscape of personalized image generation, identifying commonalities and distinguishing features among existing methods. Finally, we discuss the open challenges in the field and propose potential directions for future research. We keep tracing related works at https://github.com/csyxwei/Awesome-Personalized-Image-Generation.
- Abstract(参考訳): 生成モデルの最近の進歩は、パーソナライズされたコンテンツ作成の発展を著しく促進している。
ユーザ固有の概念を持つ小さなイメージセットが与えられた場合、パーソナライズされた画像生成は、指定された概念を取り入れ、提供されるテキスト記述に準拠するイメージを作成することができる。
コンテンツ制作に広く応用されているため、近年はこの分野に多大な努力が注がれている。
それにもかかわらず、パーソナライズに使用される技術は、生成モデルの開発とともに進化し、その特異かつ相互関連なコンポーネントが開発されている。
本稿では,従来のGAN,現代テキスト・画像拡散モデル,新しいマルチモデル自己回帰モデルなど,様々な生成モデルにまたがる一般化されたパーソナライズされた画像生成の総合的なレビューを紹介する。
まず、異なる生成モデルにまたがるパーソナライズプロセスを標準化する統一的なフレームワークを定義し、インバージョン空間、インバージョン手法、パーソナライズスキームという3つの重要なコンポーネントを包含する。
この統合されたフレームワークは、異なる生成的アーキテクチャ間でパーソナライズテクニックを分離し比較するための構造化されたアプローチを提供する。
この統合された枠組みに基づいて、我々はさらに、それぞれの生成モデルにおけるパーソナライズ手法の詳細な分析を提供し、それらのユニークな貢献と革新を強調します。
比較分析により, 個人化された画像生成の現況を解明し, 共通点を特定し, 既存手法の特徴を識別する。
最後に、この分野におけるオープンな課題について論じ、今後の研究に向けた潜在的方向性を提案する。
関連作業はhttps://github.com/csyxwei/Awesome-Personalized-Image-Generation.comで追跡しています。
関連論文リスト
- Imagine yourself: Tuning-Free Personalized Image Generation [39.63411174712078]
私たちは、パーソナライズされた画像生成用に設計された最先端のモデルであるImagine yourselfを紹介します。
チューニング不要のモデルとして機能し、個別に調整することなく、すべてのユーザが共有フレームワークを活用できる。
我々の研究は、Imagine自身が最先端のパーソナライズモデルを超え、アイデンティティ保存、視覚的品質、テキストアライメントにおいて優れた能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-20T09:21:49Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - An Improved Method for Personalizing Diffusion Models [23.20529652769131]
拡散モデルは印象的な画像生成能力を示している。
テキストインバージョンやドリームブートのようなパーソナライズされたアプローチは、特定の画像を用いたモデルのパーソナライゼーションを強化する。
提案手法は,新たな情報統合におけるモデルの本来の知識を維持することを目的としている。
論文 参考訳(メタデータ) (2024-07-07T09:52:04Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Limitations of Face Image Generation [12.11955119100926]
顔生成における生成モデルの有効性と欠点について検討した。
テキストプロンプトへの忠実度、人口格差、分布変化など、顔画像生成のいくつかの制限を識別する。
本稿では、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T19:33:26Z) - Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning [6.288699905490906]
本稿では,新しいオープンドメインパーソナライズされた画像生成モデルであるSubject-Diffusionを提案する。
提案手法は,他のSOTAフレームワークよりも,単一,複数,カスタマイズされた画像生成に優れる。
論文 参考訳(メタデータ) (2023-07-21T08:09:47Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。