論文の概要: DreamSync: Aligning Text-to-Image Generation with Image Understanding
Feedback
- arxiv url: http://arxiv.org/abs/2311.17946v1
- Date: Wed, 29 Nov 2023 03:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:37:42.015257
- Title: DreamSync: Aligning Text-to-Image Generation with Image Understanding
Feedback
- Title(参考訳): DreamSync: 画像理解フィードバックによるテキストから画像生成の調整
- Authors: Jiao Sun, Deqing Fu, Yushi Hu, Su Wang, Royi Rassin, Da-Cheng Juan,
Dana Alon, Charles Herrmann, Sjoerd van Steenkiste, Ranjay Krishna, Cyrus
Rashtchian
- Abstract要約: テキスト・ツー・イメージ・モデル(T2I)は、ユーザの入力テキストに対して審美的で忠実なイメージを作成するのに依然として苦労している。
本稿では,テキスト入力に忠実なT2Iモデルを改善する設計によるモデルに依存しないトレーニングアルゴリズムであるDreamSyncを紹介する。
その単純さにもかかわらず、DreamSyncは2つの拡散ベースのT2Iモデルのセマンティックアライメントと美的魅力の両方を改善している。
- 参考スコア(独自算出の注目度): 38.81701138951801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their wide-spread success, Text-to-Image models (T2I) still struggle
to produce images that are both aesthetically pleasing and faithful to the
user's input text. We introduce DreamSync, a model-agnostic training algorithm
by design that improves T2I models to be faithful to the text input. DreamSync
builds off a recent insight from TIFA's evaluation framework -- that large
vision-language models (VLMs) can effectively identify the fine-grained
discrepancies between generated images and the text inputs. DreamSync uses this
insight to train T2I models without any labeled data; it improves T2I models
using its own generations. First, it prompts the model to generate several
candidate images for a given input text. Then, it uses two VLMs to select the
best generation: a Visual Question Answering model that measures the alignment
of generated images to the text, and another that measures the generation's
aesthetic quality. After selection, we use LoRA to iteratively finetune the T2I
model to guide its generation towards the selected best generations. DreamSync
does not need any additional human annotation. model architecture changes, or
reinforcement learning. Despite its simplicity, DreamSync improves both the
semantic alignment and aesthetic appeal of two diffusion-based T2I models,
evidenced by multiple benchmarks (+1.7% on TIFA, +2.9% on DSG1K, +3.4% on VILA
aesthetic) and human evaluation.
- Abstract(参考訳): 広く普及したにもかかわらず、テキスト・ツー・イメージ・モデル(T2I)は、ユーザの入力テキストに美的かつ忠実なイメージを作成するのに依然として苦労している。
本稿では,テキスト入力に忠実なT2Iモデルを改善する設計によるモデルに依存しないトレーニングアルゴリズムであるDreamSyncを紹介する。
DreamSyncはTIFAの評価フレームワークから、大規模な視覚言語モデル(VLM)が生成した画像とテキスト入力の微妙な相違を効果的に識別できるという最近の知見を裏付けている。
DreamSyncはこの洞察を使ってラベル付きデータなしでT2Iモデルをトレーニングする。
まず、入力テキストに対して複数の候補画像を生成するようにモデルに促す。
次に、最良の世代を選ぶために2つのvlmを使用します。生成した画像とテキストのアライメントを測定するビジュアル質問応答モデルと、生成の美的品質を測定するモデルです。
選択後、我々はLoRAを使用してT2Iモデルを反復的に微調整し、その生成を選択された最良世代に向けて導く。
DreamSyncには追加のヒューマンアノテーションは必要ない。
モデルアーキテクチャの変更、あるいは強化学習。
単純さにもかかわらず、DreamSyncは2つの拡散ベースのT2Iモデルのセマンティックアライメントと美的魅力を改善し、複数のベンチマーク(TIFAで+1.7%、DSG1Kで+2.9%、VILAで+3.4%)と人間の評価によって証明された。
関連論文リスト
- VersaT2I: Improving Text-to-Image Models with Versatile Reward [32.30564849001593]
VersaT2Iは、あらゆるテキスト・トゥ・イメージ(T2I)モデルの性能を向上させる汎用的なトレーニングフレームワークである。
画像の品質を、美学、テキストイメージアライメント、幾何学、低レベルの品質など、いくつかの側面に分解する。
論文 参考訳(メタデータ) (2024-03-27T12:08:41Z) - AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation [4.054100650064423]
テキスト・ツー・イメージ(T2I)拡散モデルは画像生成において顕著な成功を収めた。
AGFSyncは、AIによる完全なアプローチで、DPO(Direct Preference Optimization)を通じてT2I拡散モデルを強化するフレームワークである。
AGFSyncのT2I拡散モデルの精製方法は、スケーラブルなアライメント手法の道を開く。
論文 参考訳(メタデータ) (2024-03-20T07:31:07Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic
Image Design and Generation [121.42924593374127]
本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己修正システムであるIdean to Image'を紹介し,画像の自動設計と生成を行う。
大規模マルチモーダルモデル(LMM)に基づくシステムでは,類似のマルチモーダル自己抑止能力が得られるかを検討する。
論文 参考訳(メタデータ) (2023-10-12T17:34:20Z) - GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。
現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。
本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:37:07Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。