論文の概要: SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data
- arxiv url: http://arxiv.org/abs/2403.06952v1
- Date: Mon, 11 Mar 2024 17:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:43:55.386925
- Title: SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data
- Title(参考訳): SELMA: 自動生成データによるスキル専門のテキスト・画像エキスパートの学習とマージ
- Authors: Jialu Li, Jaemin Cho, Yi-Lin Sung, Jaehong Yoon, Mohit Bansal
- Abstract要約: SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 73.23388142296535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image (T2I) generation models have demonstrated impressive
capabilities in creating images from text descriptions. However, these T2I
generation models often fall short of generating images that precisely match
the details of the text inputs, such as incorrect spatial relationship or
missing objects. In this paper, we introduce SELMA: Skill-Specific Expert
Learning and Merging with Auto-Generated Data, a novel paradigm to improve the
faithfulness of T2I models by fine-tuning models on automatically generated,
multi-skill image-text datasets, with skill-specific expert learning and
merging. First, SELMA leverages an LLM's in-context learning capability to
generate multiple datasets of text prompts that can teach different skills, and
then generates the images with a T2I model based on the prompts. Next, SELMA
adapts the T2I model to the new skills by learning multiple single-skill LoRA
(low-rank adaptation) experts followed by expert merging. Our independent
expert fine-tuning specializes multiple models for different skills, and expert
merging helps build a joint multi-skill T2I model that can generate faithful
images given diverse text prompts, while mitigating the knowledge conflict from
different datasets. We empirically demonstrate that SELMA significantly
improves the semantic alignment and text faithfulness of state-of-the-art T2I
diffusion models on multiple benchmarks (+2.1% on TIFA and +6.9% on DSG), human
preference metrics (PickScore, ImageReward, and HPS), as well as human
evaluation. Moreover, fine-tuning with image-text pairs auto-collected via
SELMA shows comparable performance to fine-tuning with ground truth data.
Lastly, we show that fine-tuning with images from a weaker T2I model can help
improve the generation quality of a stronger T2I model, suggesting promising
weak-to-strong generalization in T2I models.
- Abstract(参考訳): 最近のtext-to-image (t2i) 生成モデルは、テキスト記述から画像を作成する素晴らしい能力を示している。
しかしながら、これらのT2I生成モデルは、不正確な空間関係や欠落したオブジェクトなど、テキスト入力の詳細と正確に一致する画像を生成するのに不足することが多い。
本稿ではselmaについて紹介する。selma: スキル固有のエキスパート学習と自動生成データとの融合,スキル固有のエキスパート学習とマージを備えた,自動生成されたマルチスキル画像テキストデータセット上でモデルを微調整することにより,t2iモデルの忠実性を向上するための新しいパラダイムである。
まず、selmaはllmのコンテキスト内学習機能を利用して、異なるスキルを習得できるテキストプロンプトの複数のデータセットを生成し、プロンプトに基づいてt2iモデルで画像を生成する。
次に、SELMAは、複数のシングルスキルのLoRA(ローランク適応)エキスパートを学び、その後にエキスパートマージすることで、新しいスキルにT2Iモデルを適用する。
我々の独立した専門家は、異なるスキルのための複数のモデルを専門に調整し、エキスパートマージは、異なるデータセットからの知識の衝突を緩和しながら、さまざまなテキストプロンプトに対して忠実な画像を生成することができる、共同のマルチスキルt2iモデルを構築するのに役立ちます。
SELMAは、複数のベンチマーク(TIFAでは+2.1%、DSGでは+6.9%)、人間の嗜好指標(PickScore、ImageReward、HPS)、および人間の評価において、最先端のT2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示した。
さらに、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上真実データによる微調整に匹敵する性能を示す。
最後に,より弱いT2Iモデルからの画像を微調整することで,より強力なT2Iモデルの生成品質を向上させることができることを示す。
関連論文リスト
- Text-to-Image Synthesis: A Decade Survey [7.250878248686215]
テキスト・ツー・イメージ合成(T2I)は、テキスト記述から高品質な画像を生成することに焦点を当てている。
本調査では,T2Iに関する最近の研究440件について概説する。
論文 参考訳(メタデータ) (2024-11-25T07:40:32Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Evaluating the Generation of Spatial Relations in Text and Image Generative Models [4.281091463408283]
空間関係は自然に空間的に理解される。
我々は、LLM出力を画像に変換するアプローチを開発し、T2IモデルとLLMの両方を評価する。
驚くべきことに、T2Iモデルは印象的な画像生成能力にもかかわらず、サブパー性能しか達成できないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T09:30:02Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - VersaT2I: Improving Text-to-Image Models with Versatile Reward [32.30564849001593]
VersaT2Iは、あらゆるテキスト・トゥ・イメージ(T2I)モデルの性能を向上させる汎用的なトレーニングフレームワークである。
画像の品質を、美学、テキストイメージアライメント、幾何学、低レベルの品質など、いくつかの側面に分解する。
論文 参考訳(メタデータ) (2024-03-27T12:08:41Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Mini-DALLE3: Interactive Text to Image by Prompting Large Language
Models [71.49054220807983]
一般的な制限は、自然言語記述を用いた安定拡散のようなT2Iモデルとの効果的な通信に持続する。
最近リリースされたDALLE3に触発されて、人間の意図を一致させ、新しいタスク、インタラクティブテキスト・トゥ・イメージ(iT2I)を導入すべく、既存のT2Iシステムを再考した。
我々は,iT2I の LLM を補助的手法と既製の T2I モデルで拡張する簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。