論文の概要: SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data
- arxiv url: http://arxiv.org/abs/2403.06952v1
- Date: Mon, 11 Mar 2024 17:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:43:55.386925
- Title: SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data
- Title(参考訳): SELMA: 自動生成データによるスキル専門のテキスト・画像エキスパートの学習とマージ
- Authors: Jialu Li, Jaemin Cho, Yi-Lin Sung, Jaehong Yoon, Mohit Bansal
- Abstract要約: SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 73.23388142296535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image (T2I) generation models have demonstrated impressive
capabilities in creating images from text descriptions. However, these T2I
generation models often fall short of generating images that precisely match
the details of the text inputs, such as incorrect spatial relationship or
missing objects. In this paper, we introduce SELMA: Skill-Specific Expert
Learning and Merging with Auto-Generated Data, a novel paradigm to improve the
faithfulness of T2I models by fine-tuning models on automatically generated,
multi-skill image-text datasets, with skill-specific expert learning and
merging. First, SELMA leverages an LLM's in-context learning capability to
generate multiple datasets of text prompts that can teach different skills, and
then generates the images with a T2I model based on the prompts. Next, SELMA
adapts the T2I model to the new skills by learning multiple single-skill LoRA
(low-rank adaptation) experts followed by expert merging. Our independent
expert fine-tuning specializes multiple models for different skills, and expert
merging helps build a joint multi-skill T2I model that can generate faithful
images given diverse text prompts, while mitigating the knowledge conflict from
different datasets. We empirically demonstrate that SELMA significantly
improves the semantic alignment and text faithfulness of state-of-the-art T2I
diffusion models on multiple benchmarks (+2.1% on TIFA and +6.9% on DSG), human
preference metrics (PickScore, ImageReward, and HPS), as well as human
evaluation. Moreover, fine-tuning with image-text pairs auto-collected via
SELMA shows comparable performance to fine-tuning with ground truth data.
Lastly, we show that fine-tuning with images from a weaker T2I model can help
improve the generation quality of a stronger T2I model, suggesting promising
weak-to-strong generalization in T2I models.
- Abstract(参考訳): 最近のtext-to-image (t2i) 生成モデルは、テキスト記述から画像を作成する素晴らしい能力を示している。
しかしながら、これらのT2I生成モデルは、不正確な空間関係や欠落したオブジェクトなど、テキスト入力の詳細と正確に一致する画像を生成するのに不足することが多い。
本稿ではselmaについて紹介する。selma: スキル固有のエキスパート学習と自動生成データとの融合,スキル固有のエキスパート学習とマージを備えた,自動生成されたマルチスキル画像テキストデータセット上でモデルを微調整することにより,t2iモデルの忠実性を向上するための新しいパラダイムである。
まず、selmaはllmのコンテキスト内学習機能を利用して、異なるスキルを習得できるテキストプロンプトの複数のデータセットを生成し、プロンプトに基づいてt2iモデルで画像を生成する。
次に、SELMAは、複数のシングルスキルのLoRA(ローランク適応)エキスパートを学び、その後にエキスパートマージすることで、新しいスキルにT2Iモデルを適用する。
我々の独立した専門家は、異なるスキルのための複数のモデルを専門に調整し、エキスパートマージは、異なるデータセットからの知識の衝突を緩和しながら、さまざまなテキストプロンプトに対して忠実な画像を生成することができる、共同のマルチスキルt2iモデルを構築するのに役立ちます。
SELMAは、複数のベンチマーク(TIFAでは+2.1%、DSGでは+6.9%)、人間の嗜好指標(PickScore、ImageReward、HPS)、および人間の評価において、最先端のT2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示した。
さらに、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上真実データによる微調整に匹敵する性能を示す。
最後に,より弱いT2Iモデルからの画像を微調整することで,より強力なT2Iモデルの生成品質を向上させることができることを示す。
関連論文リスト
- Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - DreamSync: Aligning Text-to-Image Generation with Image Understanding
Feedback [38.81701138951801]
テキスト・ツー・イメージ・モデル(T2I)は、ユーザの入力テキストに対して審美的で忠実なイメージを作成するのに依然として苦労している。
本稿では,テキスト入力に忠実なT2Iモデルを改善する設計によるモデルに依存しないトレーニングアルゴリズムであるDreamSyncを紹介する。
その単純さにもかかわらず、DreamSyncは2つの拡散ベースのT2Iモデルのセマンティックアライメントと美的魅力の両方を改善している。
論文 参考訳(メタデータ) (2023-11-29T03:42:16Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Mini-DALLE3: Interactive Text to Image by Prompting Large Language
Models [71.49054220807983]
一般的な制限は、自然言語記述を用いた安定拡散のようなT2Iモデルとの効果的な通信に持続する。
最近リリースされたDALLE3に触発されて、人間の意図を一致させ、新しいタスク、インタラクティブテキスト・トゥ・イメージ(iT2I)を導入すべく、既存のT2Iシステムを再考した。
我々は,iT2I の LLM を補助的手法と既製の T2I モデルで拡張する簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T16:53:40Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Learning from Multiple Sources for Data-to-Text and Text-to-Data [16.080265665849527]
Data-to-text (D2T) と text-to-data (T2D) は、グラフやテーブルなどの構造化されたデータを流用なテキストに変換する2つのタスクである。
現在のシステムは、D2TやT2Dタスクに微調整された事前訓練された言語モデルを利用している。
このアプローチには2つの主な制限がある。ひとつは、タスクとソース毎に個別のシステムを調整する必要があること、もうひとつは、利用可能なコーパスの不足によって学習が制限されることだ。
変形型自動エンコーダモデルを導入し,その多様性を表現できるように,アンタングル型とコンテンツ変数を交互に構成する。
論文 参考訳(メタデータ) (2023-02-22T10:39:33Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。