論文の概要: Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization
- arxiv url: http://arxiv.org/abs/2401.16762v1
- Date: Tue, 30 Jan 2024 05:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:08:53.538721
- Title: Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization
- Title(参考訳): Pick-and-Draw:テキストと画像のパーソナライズのためのトレーニング不要なセマンティックガイダンス
- Authors: Henglei Lv, Jiayu Xiao, Liang Li, Qingming Huang
- Abstract要約: Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
- 参考スコア(独自算出の注目度): 56.12990759116612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based text-to-image personalization have achieved great success in
generating subjects specified by users among various contexts. Even though,
existing finetuning-based methods still suffer from model overfitting, which
greatly harms the generative diversity, especially when given subject images
are few. To this end, we propose Pick-and-Draw, a training-free semantic
guidance approach to boost identity consistency and generative diversity for
personalization methods. Our approach consists of two components: appearance
picking guidance and layout drawing guidance. As for the former, we construct
an appearance palette with visual features from the reference image, where we
pick local patterns for generating the specified subject with consistent
identity. As for layout drawing, we outline the subject's contour by referring
to a generative template from the vanilla diffusion model, and inherit the
strong image prior to synthesize diverse contexts according to different text
conditions. The proposed approach can be applied to any personalized diffusion
models and requires as few as a single reference image. Qualitative and
quantitative experiments show that Pick-and-Draw consistently improves identity
consistency and generative diversity, pushing the trade-off between subject
fidelity and image-text fidelity to a new Pareto frontier.
- Abstract(参考訳): 拡散に基づくテキストから画像へのパーソナライズは、様々な文脈においてユーザによって特定された主題を生成することに大きな成功を収めている。
とはいえ、既存の微調整方式はモデルオーバーフィッティングに悩まされており、特に被写体画像が少ない場合には、生成的多様性を著しく損なう。
そこで本研究では,パーソナライズ手法におけるアイデンティティ一貫性と生成的多様性を高めるためのトレーニングフリーな意味指導手法である pick-and-draw を提案する。
私たちのアプローチは、外観選択ガイダンスとレイアウト図面ガイダンスという2つのコンポーネントで構成されています。
前者については、参照画像から視覚的特徴を持つ外観パレットを構築し、一貫した同一性を持つ特定対象を生成するための局所パターンを選択する。
レイアウト図面では,バニラ拡散モデルから生成テンプレートを参照して対象の輪郭を概説し,異なるテキスト条件に従って多様な文脈を合成する前に,強いイメージを継承する。
提案手法は,任意のパーソナライズされた拡散モデルに適用可能であり,単一の参照画像しか必要としない。
定性的かつ定量的な実験により、ピック・アンド・ドルーは恒常的にアイデンティティの整合性と生成的多様性を改善し、被験者の忠実さと画像テキストの忠実さのトレードオフを新しいパレートフロンティアに押し上げる。
関連論文リスト
- Layout-and-Retouch: A Dual-stage Framework for Improving Diversity in Personalized Image Generation [40.969861849933444]
1)レイアウト生成と2)リタッチの2段階からなる,Layout-and-Retouchと呼ばれる新しいP-T2I手法を提案する。
ステップブレンド推論では,バニラT2Iモデル固有のサンプルの多様性を利用して,多様なレイアウト画像を生成する。
第2段階では、マルチソースアテンションは、第1ステージからのコンテキスト画像を参照画像に置き換え、コンテキスト画像から構造を活用し、参照画像から視覚的特徴を抽出する。
論文 参考訳(メタデータ) (2024-07-13T05:28:45Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Concept Weaver: Enabling Multi-Concept Fusion in Text-to-Image Models [85.14042557052352]
本研究では,カスタマイズされたテキストと画像の拡散モデルを推論時に作成する方法であるConcept Weaverを紹介する。
概念ウィーバーは、他のアプローチと比較して、アイデンティティの忠実度が高い複数のカスタム概念を生成可能であることを示す。
論文 参考訳(メタデータ) (2024-04-05T06:41:27Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter [63.622879199281705]
いくつかの例に基づく画像生成手法が提案されており、例えば、いくつかの入力参照の健全な特徴を吸収して新しい概念を生成する。
本研究では,DreamArtistというシンプルなフレームワークを提案する。このフレームワークは,事前学習した拡散モデルに対して,新しい正負の学習戦略を採用する。
我々は,画像類似性(忠実度)と多様性,生成制御性,スタイルのクローニングから,幅広い実験を行い,提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-11-21T10:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。