論文の概要: Direct Consistency Optimization for Compositional Text-to-Image
Personalization
- arxiv url: http://arxiv.org/abs/2402.12004v1
- Date: Mon, 19 Feb 2024 09:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 17:17:26.205539
- Title: Direct Consistency Optimization for Compositional Text-to-Image
Personalization
- Title(参考訳): 合成テキスト-画像パーソナライズのための直接一貫性最適化
- Authors: Kyungmin Lee, Sangkyung Kwak, Kihyuk Sohn, Jinwoo Shin
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
- 参考スコア(独自算出の注目度): 73.94505688626651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) diffusion models, when fine-tuned on a few personal
images, are able to generate visuals with a high degree of consistency.
However, they still lack in synthesizing images of different scenarios or
styles that are possible in the original pretrained models. To address this, we
propose to fine-tune the T2I model by maximizing consistency to reference
images, while penalizing the deviation from the pretrained model. We devise a
novel training objective for T2I diffusion models that minimally fine-tunes the
pretrained model to achieve consistency. Our method, dubbed \emph{Direct
Consistency Optimization}, is as simple as regular diffusion loss, while
significantly enhancing the compositionality of personalized T2I models. Also,
our approach induces a new sampling method that controls the tradeoff between
image fidelity and prompt fidelity. Lastly, we emphasize the necessity of using
a comprehensive caption for reference images to further enhance the image-text
alignment. We show the efficacy of the proposed method on the T2I
personalization for subject, style, or both. In particular, our method results
in a superior Pareto frontier to the baselines. Generated examples and codes
are in our project page( https://dco-t2i.github.io/).
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
しかし、元の事前学習されたモデルで可能な異なるシナリオやスタイルのイメージを合成することができない。
そこで本研究では,参照画像との整合性を最大化しつつ,事前学習モデルからの偏差を補償し,T2Iモデルを微調整する手法を提案する。
我々は,T2I拡散モデルに対する新たな学習目標を考案し,事前学習したモデルを最小限に微調整して整合性を実現する。
Emph{Direct Consistency Optimization} と呼ばれる手法は、正規拡散損失と同じくらい単純であり、パーソナライズされたT2Iモデルの構成性を著しく向上させる。
また,画像忠実度とプロンプト忠実度とのトレードオフを制御する新しいサンプリング手法を提案する。
最後に,参照画像に包括的キャプションを用いることにより,画像とテキストのアライメントをさらに強化することの必要性を強調した。
提案手法が被験者,スタイル,あるいはその両方に対するT2Iパーソナライズに有効であることを示す。
特に,本手法では,ベースラインに対するparetoフロンティアが優れている。
生成された例とコードはプロジェクトのページにある(https://dco-t2i.github.io/)。
関連論文リスト
- PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Orthogonal Adaptation for Modular Customization of Diffusion Models [39.62438974450659]
我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。
直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
論文 参考訳(メタデータ) (2023-12-05T02:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。