論文の概要: VersaT2I: Improving Text-to-Image Models with Versatile Reward
- arxiv url: http://arxiv.org/abs/2403.18493v1
- Date: Wed, 27 Mar 2024 12:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:08:03.955004
- Title: VersaT2I: Improving Text-to-Image Models with Versatile Reward
- Title(参考訳): VersaT2I:Versatile Rewardによるテキスト・画像モデルの改善
- Authors: Jianshu Guo, Wenhao Chai, Jie Deng, Hsiang-Wei Huang, Tian Ye, Yichen Xu, Jiawei Zhang, Jenq-Neng Hwang, Gaoang Wang,
- Abstract要約: VersaT2Iは、あらゆるテキスト・トゥ・イメージ(T2I)モデルの性能を向上させる汎用的なトレーニングフレームワークである。
画像の品質を、美学、テキストイメージアライメント、幾何学、低レベルの品質など、いくつかの側面に分解する。
- 参考スコア(独自算出の注目度): 32.30564849001593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image (T2I) models have benefited from large-scale and high-quality data, demonstrating impressive performance. However, these T2I models still struggle to produce images that are aesthetically pleasing, geometrically accurate, faithful to text, and of good low-level quality. We present VersaT2I, a versatile training framework that can boost the performance with multiple rewards of any T2I model. We decompose the quality of the image into several aspects such as aesthetics, text-image alignment, geometry, low-level quality, etc. Then, for every quality aspect, we select high-quality images in this aspect generated by the model as the training set to finetune the T2I model using the Low-Rank Adaptation (LoRA). Furthermore, we introduce a gating function to combine multiple quality aspects, which can avoid conflicts between different quality aspects. Our method is easy to extend and does not require any manual annotation, reinforcement learning, or model architecture changes. Extensive experiments demonstrate that VersaT2I outperforms the baseline methods across various quality criteria.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ(T2I)モデルは、大規模で高品質なデータから恩恵を受けており、素晴らしいパフォーマンスを示している。
しかし、これらのT2Iモデルは、審美的で、幾何学的に正確で、テキストに忠実で、低レベルな画質のイメージを作るのに依然として苦労している。
提案するVersaT2Iは,任意のT2Iモデルの複数の報酬を伴って,パフォーマンスを向上させる多目的トレーニングフレームワークである。
画像の品質を、美学、テキストイメージアライメント、幾何学、低レベルの品質など、いくつかの側面に分解する。
そして、各品質面に対して、ローランド適応(LoRA)を用いてT2Iモデルを微調整するためのトレーニングセットとして、モデルによって生成されたこの側面の高品質な画像を選択する。
さらに,複数の品質面を組み合わせたゲーティング機能を導入し,異なる品質面間の衝突を回避する。
提案手法は拡張が容易であり,手作業によるアノテーションや強化学習,モデルアーキテクチャの変更は不要である。
大規模な実験により、VersaT2Iは様々な品質基準で基準法よりも優れていることが示された。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework [3.7953598825170753]
カンディンスキー3は潜伏拡散に基づく新しいT2Iモデルであり、高い品質と光リアリズムを達成する。
各種アプリケーションのためのベースT2Iモデルを拡張し,多機能生成システムを構築する。
人による評価では、Kandinsky 3はオープンソース生成システムの中で最高品質のスコアの1つを示している。
論文 参考訳(メタデータ) (2024-10-28T14:22:08Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - DreamSync: Aligning Text-to-Image Generation with Image Understanding
Feedback [38.81701138951801]
テキスト・ツー・イメージ・モデル(T2I)は、ユーザの入力テキストに対して審美的で忠実なイメージを作成するのに依然として苦労している。
本稿では,テキスト入力に忠実なT2Iモデルを改善する設計によるモデルに依存しないトレーニングアルゴリズムであるDreamSyncを紹介する。
その単純さにもかかわらず、DreamSyncは2つの拡散ベースのT2Iモデルのセマンティックアライメントと美的魅力の両方を改善している。
論文 参考訳(メタデータ) (2023-11-29T03:42:16Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。