論文の概要: Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training
- arxiv url: http://arxiv.org/abs/2312.16204v3
- Date: Wed, 09 Oct 2024 11:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:53.597607
- Title: Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training
- Title(参考訳): 誤りから学ぶ:テキストから画像への拡散モデルトレーニングのための反復的プロンプトリラベル
- Authors: Xinyan Chen, Jiaxin Ge, Tianjun Zhang, Jiaming Liu, Shanghang Zhang,
- Abstract要約: Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
- 参考スコア(独自算出の注目度): 33.51524424536508
- License:
- Abstract: Diffusion models have shown impressive performance in many domains. However, the model's capability to follow natural language instructions (e.g., spatial relationships between objects, generating complex scenes) is still unsatisfactory. In this work, we propose Iterative Prompt Relabeling (IPR), a novel algorithm that aligns images to text through iterative image sampling and prompt relabeling with feedback. IPR first samples a batch of images conditioned on the text, then relabels the text prompts of unmatched text-image pairs with classifier feedback. We conduct thorough experiments on SDv2 and SDXL, testing their capability to follow instructions on spatial relations. With IPR, we improved up to 15.22% (absolute improvement) on the challenging spatial relation VISOR benchmark, demonstrating superior performance compared to previous RL methods. Our code is publicly available at https://github.com/cxy000000/IPR-RLDF.
- Abstract(参考訳): 拡散モデルは多くの領域で顕著な性能を示している。
しかし、モデルが自然言語の指示に従う能力(例えば、オブジェクト間の空間的関係、複雑なシーンを生成するなど)はまだ不十分である。
そこで本研究では,反復的画像サンプリングによる画像のテキストへのアライメントと,フィードバックによるリテラブルの促進を行う新しいアルゴリズムであるIterative Prompt Relabeling (IPR)を提案する。
IPRはまず、テキストに条件付きイメージのバッチをサンプリングし、未マッチングのテキストイメージペアのテキストプロンプトに分類器のフィードバックをラベル付けする。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
IPRでは、挑戦的空間関係VISORベンチマークで15.22%(絶対改善)の改善を行い、従来のRL法と比較して優れた性能を示した。
私たちのコードはhttps://github.com/cxy000000/IPR-RLDF.comで公開されています。
関連論文リスト
- Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion
Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。
テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。
本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文 参考訳(メタデータ) (2023-05-25T16:30:07Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Bi-directional Training for Composed Image Retrieval via Text Prompt
Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。
本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。
2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-29T11:37:41Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - InDiReCT: Language-Guided Zero-Shot Deep Metric Learning for Images [4.544151613454639]
アプリケーションによって、画像検索システムの利用者は異なる概念を持ち、類似性も変化していると論じる。
本稿では,Language-Guided Zero-Shot Deep Metric Learning (LanZ-DML) を新しいDML設定として提示する。
InDiReCTは、トレーニングにいくつかのテキストプロンプトのみを使用する画像上のLanZ-DMLのモデルである。
論文 参考訳(メタデータ) (2022-11-23T08:09:50Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。