論文の概要: Rich Human Feedback for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2312.10240v2
- Date: Tue, 9 Apr 2024 01:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 19:47:12.950654
- Title: Rich Human Feedback for Text-to-Image Generation
- Title(参考訳): テキスト・画像生成のためのリッチ・ヒューマン・フィードバック
- Authors: Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katie Collins, Yiwen Luo, Yang Li, Kai J Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam,
- Abstract要約: 我々は18K生成画像(RichHF-18K)のリッチなフィードバックを収集し、マルチモーダルトランスを訓練して、リッチなフィードバックを自動的に予測する。
例えば、高品質なトレーニングデータを選択して微調整し、生成モデルを改善することで、予測されたリッチな人間のフィードバックを利用して画像生成を改善することができることを示す。
- 参考スコア(独自算出の注目度): 27.030777546301376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Text-to-Image (T2I) generation models such as Stable Diffusion and Imagen have made significant progress in generating high-resolution images based on text descriptions. However, many generated images still suffer from issues such as artifacts/implausibility, misalignment with text descriptions, and low aesthetic quality. Inspired by the success of Reinforcement Learning with Human Feedback (RLHF) for large language models, prior works collected human-provided scores as feedback on generated images and trained a reward model to improve the T2I generation. In this paper, we enrich the feedback signal by (i) marking image regions that are implausible or misaligned with the text, and (ii) annotating which words in the text prompt are misrepresented or missing on the image. We collect such rich human feedback on 18K generated images (RichHF-18K) and train a multimodal transformer to predict the rich feedback automatically. We show that the predicted rich human feedback can be leveraged to improve image generation, for example, by selecting high-quality training data to finetune and improve the generative models, or by creating masks with predicted heatmaps to inpaint the problematic regions. Notably, the improvements generalize to models (Muse) beyond those used to generate the images on which human feedback data were collected (Stable Diffusion variants). The RichHF-18K data set will be released in our GitHub repository: https://github.com/google-research/google-research/tree/master/richhf_18k.
- Abstract(参考訳): 近年のテキスト・トゥ・イメージ(T2I)生成モデルでは,テキスト記述に基づく高解像度画像の生成が著しく進歩している。
しかし、生成した画像の多くは、アーティファクト/インプリケータビリティ、テキスト記述との相違、美的品質の低下といった問題に悩まされている。
大規模言語モデルにおける強化学習(Reinforcement Learning with Human Feedback, RLHF)の成功に触発された先行研究は、生成された画像に対するフィードバックとして人為的なスコアを収集し、T2I生成を改善するための報酬モデルを訓練した。
本稿では,フィードバック信号の強化について述べる。
一 テキストに一致しない、又は一致しない画像領域をマークし、
二 画像に文字プロンプトのどの単語が誤って表現されたり、欠落したかを注釈すること。
このようなリッチなフィードバックを18K生成画像(RichHF-18K)に収集し、マルチモーダルトランスをトレーニングして、リッチなフィードバックを自動的に予測する。
例えば、高品質なトレーニングデータを選択して生成モデルを微調整し改善したり、予測されたヒートマップでマスクを作成して問題領域に適応させることで、画像生成を改善することができることを示す。
特に、この改良は、人間のフィードバックデータが収集された画像を生成するために使用されるモデル(ミューズ)に一般化される(安定拡散変種)。
RichHF-18KデータセットはGitHubリポジトリでリリースされます。
関連論文リスト
- Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。