論文の概要: DreamSync: Aligning Text-to-Image Generation with Image Understanding
Feedback
- arxiv url: http://arxiv.org/abs/2311.17946v1
- Date: Wed, 29 Nov 2023 03:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:37:42.015257
- Title: DreamSync: Aligning Text-to-Image Generation with Image Understanding
Feedback
- Title(参考訳): DreamSync: 画像理解フィードバックによるテキストから画像生成の調整
- Authors: Jiao Sun, Deqing Fu, Yushi Hu, Su Wang, Royi Rassin, Da-Cheng Juan,
Dana Alon, Charles Herrmann, Sjoerd van Steenkiste, Ranjay Krishna, Cyrus
Rashtchian
- Abstract要約: テキスト・ツー・イメージ・モデル(T2I)は、ユーザの入力テキストに対して審美的で忠実なイメージを作成するのに依然として苦労している。
本稿では,テキスト入力に忠実なT2Iモデルを改善する設計によるモデルに依存しないトレーニングアルゴリズムであるDreamSyncを紹介する。
その単純さにもかかわらず、DreamSyncは2つの拡散ベースのT2Iモデルのセマンティックアライメントと美的魅力の両方を改善している。
- 参考スコア(独自算出の注目度): 38.81701138951801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their wide-spread success, Text-to-Image models (T2I) still struggle
to produce images that are both aesthetically pleasing and faithful to the
user's input text. We introduce DreamSync, a model-agnostic training algorithm
by design that improves T2I models to be faithful to the text input. DreamSync
builds off a recent insight from TIFA's evaluation framework -- that large
vision-language models (VLMs) can effectively identify the fine-grained
discrepancies between generated images and the text inputs. DreamSync uses this
insight to train T2I models without any labeled data; it improves T2I models
using its own generations. First, it prompts the model to generate several
candidate images for a given input text. Then, it uses two VLMs to select the
best generation: a Visual Question Answering model that measures the alignment
of generated images to the text, and another that measures the generation's
aesthetic quality. After selection, we use LoRA to iteratively finetune the T2I
model to guide its generation towards the selected best generations. DreamSync
does not need any additional human annotation. model architecture changes, or
reinforcement learning. Despite its simplicity, DreamSync improves both the
semantic alignment and aesthetic appeal of two diffusion-based T2I models,
evidenced by multiple benchmarks (+1.7% on TIFA, +2.9% on DSG1K, +3.4% on VILA
aesthetic) and human evaluation.
- Abstract(参考訳): 広く普及したにもかかわらず、テキスト・ツー・イメージ・モデル(T2I)は、ユーザの入力テキストに美的かつ忠実なイメージを作成するのに依然として苦労している。
本稿では,テキスト入力に忠実なT2Iモデルを改善する設計によるモデルに依存しないトレーニングアルゴリズムであるDreamSyncを紹介する。
DreamSyncはTIFAの評価フレームワークから、大規模な視覚言語モデル(VLM)が生成した画像とテキスト入力の微妙な相違を効果的に識別できるという最近の知見を裏付けている。
DreamSyncはこの洞察を使ってラベル付きデータなしでT2Iモデルをトレーニングする。
まず、入力テキストに対して複数の候補画像を生成するようにモデルに促す。
次に、最良の世代を選ぶために2つのvlmを使用します。生成した画像とテキストのアライメントを測定するビジュアル質問応答モデルと、生成の美的品質を測定するモデルです。
選択後、我々はLoRAを使用してT2Iモデルを反復的に微調整し、その生成を選択された最良世代に向けて導く。
DreamSyncには追加のヒューマンアノテーションは必要ない。
モデルアーキテクチャの変更、あるいは強化学習。
単純さにもかかわらず、DreamSyncは2つの拡散ベースのT2Iモデルのセマンティックアライメントと美的魅力を改善し、複数のベンチマーク(TIFAで+1.7%、DSG1Kで+2.9%、VILAで+3.4%)と人間の評価によって証明された。
関連論文リスト
- Learning Visual Generative Priors without Text [45.38392857514346]
I2I(Image-to-image)の生成について検討した。
我々のI2Iモデルは、より基礎的な視覚的先行として機能し、既存のT2Iモデルよりも高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-10T18:59:31Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Still-Moving: Customized Video Generation without Customized Video Data [81.09302547183155]
テキスト・トゥ・ビデオ(T2V)モデルをカスタマイズするための新しいフレームワークであるStill-Movingを紹介する。
このフレームワークは、ビデオモデルをテキスト・トゥ・イメージ(T2I)モデル上に構築する、著名なT2V設計に適用される。
私たちは、注入されたT2I層によって生成された機能を調整する軽量な$textitSpatial Adapters$をトレーニングします。
論文 参考訳(メタデータ) (2024-07-11T17:06:53Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - VersaT2I: Improving Text-to-Image Models with Versatile Reward [32.30564849001593]
VersaT2Iは、あらゆるテキスト・トゥ・イメージ(T2I)モデルの性能を向上させる汎用的なトレーニングフレームワークである。
画像の品質を、美学、テキストイメージアライメント、幾何学、低レベルの品質など、いくつかの側面に分解する。
論文 参考訳(メタデータ) (2024-03-27T12:08:41Z) - AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation [5.823702447759938]
AGFSyncは、AI駆動のアプローチでDPO(Direct Preference Optimization)を通じてT2I拡散モデルを強化するフレームワークである。
AGFSyncのT2I拡散モデルの精製方法は、スケーラブルなアライメント手法の道を開く。
論文 参考訳(メタデータ) (2024-03-20T07:31:07Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。
現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。
本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:37:07Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。