論文の概要: DreamBlend: Advancing Personalized Fine-tuning of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.19390v1
- Date: Thu, 28 Nov 2024 21:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:20.204641
- Title: DreamBlend: Advancing Personalized Fine-tuning of Text-to-Image Diffusion Models
- Title(参考訳): DreamBlend: テキストと画像の拡散モデルのパーソナライズされた微調整を改善する
- Authors: Shwetha Ram, Tal Neiman, Qianli Feng, Andrew Stuart, Son Tran, Trishul Chilimbi,
- Abstract要約: 本研究では,初期チェックポイントからの素早い忠実度と,後続チェックポイントからの主観的忠実度を組み合わせたDreamBlendを提案する。
これにより、被験者の忠実度が向上し、挑戦的なプロンプトに対する忠実度と多様性が向上し、最先端の微調整方法よりも優れる。
- 参考スコア(独自算出の注目度): 6.691010765280357
- License:
- Abstract: Given a small number of images of a subject, personalized image generation techniques can fine-tune large pre-trained text-to-image diffusion models to generate images of the subject in novel contexts, conditioned on text prompts. In doing so, a trade-off is made between prompt fidelity, subject fidelity and diversity. As the pre-trained model is fine-tuned, earlier checkpoints synthesize images with low subject fidelity but high prompt fidelity and diversity. In contrast, later checkpoints generate images with low prompt fidelity and diversity but high subject fidelity. This inherent trade-off limits the prompt fidelity, subject fidelity and diversity of generated images. In this work, we propose DreamBlend to combine the prompt fidelity from earlier checkpoints and the subject fidelity from later checkpoints during inference. We perform a cross attention guided image synthesis from a later checkpoint, guided by an image generated by an earlier checkpoint, for the same prompt. This enables generation of images with better subject fidelity, prompt fidelity and diversity on challenging prompts, outperforming state-of-the-art fine-tuning methods.
- Abstract(参考訳): 被写体の少数の画像が与えられた場合、パーソナライズされた画像生成技術は、トレーニング済みの大規模なテキスト-画像拡散モデルを微調整し、テキストプロンプトに条件付けされた新しい文脈で被写体の画像を生成する。
そのため、素早い忠実度、主観的忠実度、多様性のトレードオフが行われる。
事前訓練されたモデルが微調整されているため、初期のチェックポイントは、被検体の忠実度は低いが、迅速な忠実度と多様性の高い画像を合成する。
対照的に、後続のチェックポイントは、迅速な忠実度と多様性が低いが、主観的忠実度が高い画像を生成する。
この本質的にのトレードオフは、生成した画像の迅速な忠実度、主観的忠実度、多様性を制限する。
本研究では,初期チェックポイントからの素早い忠実度と,後続チェックポイントからの主観的忠実度を組み合わせたDreamBlendを提案する。
我々は、同じプロンプトのために、後続のチェックポイントから、以前のチェックポイントによって生成された画像によって導かれるクロスアテンションガイド画像合成を実行する。
これにより、被験者の忠実度が向上し、挑戦的なプロンプトに対する忠実度と多様性が向上し、最先端の微調整方法よりも優れる。
関連論文リスト
- Learning to Sample Effective and Diverse Prompts for Text-to-Image Generation [34.08660401151558]
本稿では,元のプロンプトをモデル優先のプロンプトに洗練し,所望の画像を生成するプロンプト適応に着目する。
textbfGFlowNets (textbfPAG) を用いた textbfPrompt textbfAdaptation を導入する。
論文 参考訳(メタデータ) (2025-02-17T06:28:53Z) - Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。
Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。
そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T17:41:11Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter [63.622879199281705]
いくつかの例に基づく画像生成手法が提案されており、例えば、いくつかの入力参照の健全な特徴を吸収して新しい概念を生成する。
本研究では,DreamArtistというシンプルなフレームワークを提案する。このフレームワークは,事前学習した拡散モデルに対して,新しい正負の学習戦略を採用する。
我々は,画像類似性(忠実度)と多様性,生成制御性,スタイルのクローニングから,幅広い実験を行い,提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-11-21T10:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。