論文の概要: Bridging the Gap: Aligning Text-to-Image Diffusion Models with Specific Feedback
- arxiv url: http://arxiv.org/abs/2412.00122v1
- Date: Thu, 28 Nov 2024 09:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:09.214686
- Title: Bridging the Gap: Aligning Text-to-Image Diffusion Models with Specific Feedback
- Title(参考訳): ギャップのブリッジ:特定のフィードバックを伴うテキスト・画像拡散モデルの調整
- Authors: Xuexiang Niu, Jinping Tang, Lei Wang, Ge Zhu,
- Abstract要約: フィードバックからの学習は、テキスト間拡散モデルにおけるテキストプロンプトと画像の整合性を高めることが示されている。
本稿では,3段階を含む特定の報酬目標を持つ効率的な微動法を提案する。
このベンチマークによる実験結果から,本モデルはアライメントと忠実度の両方において,他のSOTA法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 5.415802995586328
- License:
- Abstract: Learning from feedback has been shown to enhance the alignment between text prompts and images in text-to-image diffusion models. However, due to the lack of focus in feedback content, especially regarding the object type and quantity, these techniques struggle to accurately match text and images when faced with specified prompts. To address this issue, we propose an efficient fine-turning method with specific reward objectives, including three stages. First, generated images from diffusion model are detected to obtain the object categories and quantities. Meanwhile, the confidence of category and quantity can be derived from the detection results and given prompts. Next, we define a novel matching score, based on above confidence, to measure text-image alignment. It can guide the model for feedback learning in the form of a reward function. Finally, we fine-tune the diffusion model by backpropagation the reward function gradients to generate semantically related images. Different from previous feedbacks that focus more on overall matching, we place more emphasis on the accuracy of entity categories and quantities. Besides, we construct a text-to-image dataset for studying the compositional generation, including 1.7 K pairs of text-image with diverse combinations of entities and quantities. Experimental results on this benchmark show that our model outperforms other SOTA methods in both alignment and fidelity. In addition, our model can also serve as a metric for evaluating text-image alignment in other models. All code and dataset are available at https://github.com/kingniu0329/Visions.
- Abstract(参考訳): フィードバックからの学習は、テキスト間拡散モデルにおけるテキストプロンプトと画像の整合性を高めることが示されている。
しかし、特にオブジェクトの種類や量に焦点が当てられていないため、これらの手法は特定のプロンプトに直面するときのテキストや画像の正確な一致に苦慮している。
この問題に対処するために,3段階を含む特定の報酬目標を持つ効率的なファインターン手法を提案する。
まず、拡散モデルから生成された画像を検出し、対象のカテゴリと量を求める。
一方、検出結果からカテゴリと量の信頼性を導き出し、プロンプトを与えることができる。
次に,テキスト画像のアライメントを測定するために,上述の信頼度に基づく新しいマッチングスコアを定義する。
報酬関数の形でフィードバック学習のためのモデルをガイドすることができる。
最後に、報酬関数勾配をバックプロパゲーションすることで拡散モデルを微調整し、意味的関連画像を生成する。
全体的なマッチングにもっとフォーカスする以前のフィードバックとは違い、私たちはエンティティのカテゴリと量の正確さに重点を置いています。
さらに,コンポジション生成のためのテキスト・ツー・イメージ・データセットを構築し,エンティティと量の組み合わせの異なる1.7Kペアのテキスト・イメージを含む。
このベンチマークによる実験結果から,本モデルはアライメントと忠実度の両方において,他のSOTA法よりも優れていることがわかった。
さらに,本モデルは,他のモデルにおけるテキスト画像のアライメントを評価する指標としても機能する。
すべてのコードとデータセットはhttps://github.com/kingniu0329/Visionsで入手できる。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Active Mining Sample Pair Semantics for Image-text Matching [6.370886833310617]
本稿では,Active Mining Sample Pair Semantics Image-text matching model (AMSPS)と呼ばれる新しい画像テキストマッチングモデルを提案する。
3重項損失関数を持つコモンセンス学習モデルの1つの意味学習モードと比較して、AMSPSはアクティブな学習アイデアである。
論文 参考訳(メタデータ) (2023-11-09T15:03:57Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。