Fugu-MT 論文翻訳(概要): Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis

論文の概要: Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis

arxiv url: http://arxiv.org/abs/2306.09341v1
Date: Thu, 15 Jun 2023 17:59:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-16 12:56:06.229584
Title: Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis
Title（参考訳）: 人選好スコアv2:テキスト・画像合成の人選好評価のためのソリッドベンチマーク
Authors: Xiaoshi Wu, Yiming Hao, Keqiang Sun, Yixiong Chen, Feng Zhu, Rui Zhao, Hongsheng Li
Abstract要約: 近年のテキスト・ツー・イメージ生成モデルでは,テキスト入力から高忠実度画像を生成することができる。 HPD v2は、幅広いソースの画像上の人間の好みをキャプチャする。 HPD v2は、430,060対の画像に対して798,090人の好みの選択を含む。
参考スコア（独自算出の注目度）: 31.808334839365052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent text-to-image generative models can generate high-fidelity images from text inputs, but the quality of these generated images cannot be accurately evaluated by existing evaluation metrics. To address this issue, we introduce Human Preference Dataset v2 (HPD v2), a large-scale dataset that captures human preferences on images from a wide range of sources. HPD v2 comprises 798,090 human preference choices on 430,060 pairs of images, making it the largest dataset of its kind. The text prompts and images are deliberately collected to eliminate potential bias, which is a common issue in previous datasets. By fine-tuning CLIP on HPD v2, we obtain Human Preference Score v2 (HPS v2), a scoring model that can more accurately predict text-generated images' human preferences. Our experiments demonstrate that HPS v2 generalizes better than previous metrics across various image distributions and is responsive to algorithmic improvements of text-to-image generative models, making it a preferable evaluation metric for these models. We also investigate the design of the evaluation prompts for text-to-image generative models, to make the evaluation stable, fair and easy-to-use. Finally, we establish a benchmark for text-to-image generative models using HPS v2, which includes a set of recent text-to-image models from the academia, community and industry. The code and dataset is / will be available at https://github.com/tgxs002/HPSv2.
Abstract（参考訳）: 近年のテキスト画像生成モデルは,テキスト入力から高忠実度画像を生成することができるが,これらの画像の品質は既存の評価指標では正確に評価できない。この問題に対処するために,多種多様なソースから画像に対して人間の好みをキャプチャする大規模データセットであるhuman preference dataset v2 (hpd v2) を導入する。 HPD v2は、430,060対のイメージに対して798,090人の好みの選択を含む。テキストプロンプトとイメージは意図的に収集され、潜在的なバイアスを排除します。 hpd v2を微調整することで、より正確にテキスト生成画像の好みを予測できるスコアモデルであるhuman preference score v2(hps v2)を得る。実験により,HPS v2は様々な画像分布にまたがる従来の指標よりも優れており,テキストから画像への生成モデルのアルゴリズム的改善に応答し,これらのモデルに好適な評価基準となることが示された。また,テキストから画像への生成モデルに対する評価プロンプトの設計について検討し,評価を安定し,公平かつ使いやすいものにした。最後に,近年の学術・コミュニティ・産業のテキスト・ツー・イメージモデルを含むhps v2を用いたテキスト・画像生成モデルのベンチマークを確立した。コードとデータセットはhttps://github.com/tgxs002/HPSv2で入手できる。

関連論文リスト

HPSv3: Towards Wide-Spectrum Human Preference Score [35.108959799842694]
我々は、1.08Mのテキストイメージペアと1.17Mの注釈付きペアワイズ比較を統合した、初めてのワイドスペクトルヒトの嗜好データセットをリリースする。微粒なランク付けのための不確実性認識ランキング損失を用いて訓練されたVLMに基づく選好モデルを提案する。さらに,余分なデータなしで品質を向上させる反復画像改善法であるChain-of-Human-Preference (CoHP)を提案する。
論文参考訳（メタデータ） (2025-08-05T17:17:13Z)
EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-24T04:08:25Z)
Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-14T13:52:43Z)
Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文参考訳（メタデータ） (2024-11-08T17:07:01Z)
Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文参考訳（メタデータ） (2024-10-23T16:42:56Z)
Learning Multi-dimensional Human Preference for Text-to-Image Generation [18.10755131392223]
テキスト・ツー・イメージ・モデル評価のための最初の多次元選好スコアモデルである多次元選好スコア(MPS)を提案する。 MPSはCLIPモデルに設定条件モジュールを導入し、これらの様々な好みを学習する。 MHP(Multi-dimensional Human Preference)データセットに基づいて,4次元にわたる918,315人の選好選択をトレーニングする。
論文参考訳（メタデータ） (2024-05-23T15:39:43Z)
Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文参考訳（メタデータ） (2024-04-02T11:40:38Z)
Human Preference Score: Better Aligning Text-to-Image Models with Human Preference [41.270068272447055]
我々は、Stable Foundation Discordチャネルから生成された画像に基づいて、人間の選択のデータセットを収集する。本実験は, 生成モデルに対する現在の評価指標が, 人間の選択とよく相関しないことを示した。本研究では,人間の好みに合わせて安定拡散を適応する簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2023-03-25T10:09:03Z)
Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文参考訳（メタデータ） (2023-02-23T17:34:53Z)
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文参考訳（メタデータ） (2022-05-23T17:42:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。