論文の概要: Human Preference Score v2: A Solid Benchmark for Evaluating Human
Preferences of Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2306.09341v1
- Date: Thu, 15 Jun 2023 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 12:56:06.229584
- Title: Human Preference Score v2: A Solid Benchmark for Evaluating Human
Preferences of Text-to-Image Synthesis
- Title(参考訳): 人選好スコアv2:テキスト・画像合成の人選好評価のためのソリッドベンチマーク
- Authors: Xiaoshi Wu, Yiming Hao, Keqiang Sun, Yixiong Chen, Feng Zhu, Rui Zhao,
Hongsheng Li
- Abstract要約: 近年のテキスト・ツー・イメージ生成モデルでは,テキスト入力から高忠実度画像を生成することができる。
HPD v2は、幅広いソースの画像上の人間の好みをキャプチャする。
HPD v2は、430,060対の画像に対して798,090人の好みの選択を含む。
- 参考スコア(独自算出の注目度): 31.808334839365052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image generative models can generate high-fidelity images from
text inputs, but the quality of these generated images cannot be accurately
evaluated by existing evaluation metrics. To address this issue, we introduce
Human Preference Dataset v2 (HPD v2), a large-scale dataset that captures human
preferences on images from a wide range of sources. HPD v2 comprises 798,090
human preference choices on 430,060 pairs of images, making it the largest
dataset of its kind. The text prompts and images are deliberately collected to
eliminate potential bias, which is a common issue in previous datasets. By
fine-tuning CLIP on HPD v2, we obtain Human Preference Score v2 (HPS v2), a
scoring model that can more accurately predict text-generated images' human
preferences. Our experiments demonstrate that HPS v2 generalizes better than
previous metrics across various image distributions and is responsive to
algorithmic improvements of text-to-image generative models, making it a
preferable evaluation metric for these models. We also investigate the design
of the evaluation prompts for text-to-image generative models, to make the
evaluation stable, fair and easy-to-use. Finally, we establish a benchmark for
text-to-image generative models using HPS v2, which includes a set of recent
text-to-image models from the academia, community and industry. The code and
dataset is / will be available at https://github.com/tgxs002/HPSv2.
- Abstract(参考訳): 近年のテキスト画像生成モデルは,テキスト入力から高忠実度画像を生成することができるが,これらの画像の品質は既存の評価指標では正確に評価できない。
この問題に対処するために,多種多様なソースから画像に対して人間の好みをキャプチャする大規模データセットであるhuman preference dataset v2 (hpd v2) を導入する。
HPD v2は、430,060対のイメージに対して798,090人の好みの選択を含む。
テキストプロンプトとイメージは意図的に収集され、潜在的なバイアスを排除します。
hpd v2を微調整することで、より正確にテキスト生成画像の好みを予測できるスコアモデルであるhuman preference score v2(hps v2)を得る。
実験により,HPS v2は様々な画像分布にまたがる従来の指標よりも優れており,テキストから画像への生成モデルのアルゴリズム的改善に応答し,これらのモデルに好適な評価基準となることが示された。
また,テキストから画像への生成モデルに対する評価プロンプトの設計について検討し,評価を安定し,公平かつ使いやすいものにした。
最後に,近年の学術・コミュニティ・産業のテキスト・ツー・イメージモデルを含むhps v2を用いたテキスト・画像生成モデルのベンチマークを確立した。
コードとデータセットはhttps://github.com/tgxs002/HPSv2で入手できる。
関連論文リスト
- Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Compress & Align: Curating Image-Text Data with Human Knowledge [36.34714164235438]
本稿では,ウェブクローリングされた画像テキストデータセットをコンパクトで高品質な形式に圧縮するための,人間の知識に根ざした新しいアルゴリズムを提案する。
注釈付きデータセットの報酬モデルは、画像とテキストのアライメントに関する微妙な人間の理解を内包する。
実験では、画像テキストデータセットを最大90%圧縮することで、モデルのパフォーマンスを確保(あるいは改善)できることを示した。
論文 参考訳(メタデータ) (2023-12-11T05:57:09Z) - Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual
and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。
高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。
これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文 参考訳(メタデータ) (2023-08-16T17:26:47Z) - ImageReward: Learning and Evaluating Human Preferences for Text-to-Image
Generation [30.977582244445742]
ImageRewardは、人間の嗜好報酬モデルである。
そのトレーニングは、評価やランキングを含む、系統的なアノテーションパイプラインに基づいています。
人間の評価では、ImageRewardは既存のスコアリングモデルやメトリクスよりも優れています。
論文 参考訳(メタデータ) (2023-04-12T16:58:13Z) - Human Preference Score: Better Aligning Text-to-Image Models with Human
Preference [41.270068272447055]
我々は、Stable Foundation Discordチャネルから生成された画像に基づいて、人間の選択のデータセットを収集する。
本実験は, 生成モデルに対する現在の評価指標が, 人間の選択とよく相関しないことを示した。
本研究では,人間の好みに合わせて安定拡散を適応する簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T10:09:03Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。