論文の概要: Rich Human Feedback for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2312.10240v1
- Date: Fri, 15 Dec 2023 22:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:51:04.910574
- Title: Rich Human Feedback for Text-to-Image Generation
- Title(参考訳): テキスト対画像生成のためのリッチヒューマンフィードバック
- Authors: Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy,
Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie
Ke, Krishnamurthy Dj Dvijotham, Katie Collins, Yiwen Luo, Yang Li, Kai J
Kohlhoff, Deepak Ramachandran, and Vidhya Navalpakkam
- Abstract要約: 我々は18K生成画像のリッチなフィードバックを収集し、マルチモーダルトランスフォーマーを訓練して、リッチなフィードバックを自動的に予測する。
例えば、高品質なトレーニングデータを選択して微調整し、生成モデルを改善することで、予測されたリッチな人間のフィードバックを利用して画像生成を改善することができることを示す。
- 参考スコア(独自算出の注目度): 27.030777546301376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Text-to-Image (T2I) generation models such as Stable Diffusion and
Imagen have made significant progress in generating high-resolution images
based on text descriptions. However, many generated images still suffer from
issues such as artifacts/implausibility, misalignment with text descriptions,
and low aesthetic quality. Inspired by the success of Reinforcement Learning
with Human Feedback (RLHF) for large language models, prior works collected
human-provided scores as feedback on generated images and trained a reward
model to improve the T2I generation. In this paper, we enrich the feedback
signal by (i) marking image regions that are implausible or misaligned with the
text, and (ii) annotating which words in the text prompt are misrepresented or
missing on the image. We collect such rich human feedback on 18K generated
images and train a multimodal transformer to predict the rich feedback
automatically. We show that the predicted rich human feedback can be leveraged
to improve image generation, for example, by selecting high-quality training
data to finetune and improve the generative models, or by creating masks with
predicted heatmaps to inpaint the problematic regions. Notably, the
improvements generalize to models (Muse) beyond those used to generate the
images on which human feedback data were collected (Stable Diffusion variants).
- Abstract(参考訳): 近年のテキスト・トゥ・イメージ(T2I)生成モデルでは,テキスト記述に基づく高解像度画像の生成が著しく進歩している。
しかし、多くの生成画像は、アーティファクト/実装性、テキスト記述との誤認、低い美的品質といった問題に苦しんでいる。
大規模言語モデルにおける強化学習(Reinforcement Learning with Human Feedback, RLHF)の成功に触発された先行研究は、生成された画像に対するフィードバックとして人為的なスコアを収集し、T2I生成を改善するための報酬モデルを訓練した。
本稿ではフィードバック信号の強化について述べる。
(i)テキストと区別がつかない、又は不一致な画像領域をマークすること。
(ii)テキストプロンプトのどの単語が画像に誤表示されているか、あるいは欠落しているかを注釈する。
このようなリッチなフィードバックを18K生成画像から収集し、マルチモーダルトランスフォーマーをトレーニングして、リッチなフィードバックを自動的に予測する。
例えば、高品質なトレーニングデータを選択して生成モデルを微調整し改善したり、予測されたヒートマップでマスクを作成して問題領域に適応させることで、画像生成を改善することができることを示す。
特に、この改良は、人間のフィードバックデータが収集された画像を生成するために使用されるモデル(ミューズ)に一般化される(安定拡散変種)。
関連論文リスト
- Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。