論文の概要: Human Preference Score: Better Aligning Text-to-Image Models with Human
Preference
- arxiv url: http://arxiv.org/abs/2303.14420v2
- Date: Tue, 22 Aug 2023 12:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 21:09:57.171999
- Title: Human Preference Score: Better Aligning Text-to-Image Models with Human
Preference
- Title(参考訳): 人間の嗜好スコア:人間の選好によるテキスト・画像モデルの改善
- Authors: Xiaoshi Wu, Keqiang Sun, Feng Zhu, Rui Zhao, Hongsheng Li
- Abstract要約: 我々は、Stable Foundation Discordチャネルから生成された画像に基づいて、人間の選択のデータセットを収集する。
本実験は, 生成モデルに対する現在の評価指標が, 人間の選択とよく相関しないことを示した。
本研究では,人間の好みに合わせて安定拡散を適応する簡易かつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 41.270068272447055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed a rapid growth of deep generative models, with
text-to-image models gaining significant attention from the public. However,
existing models often generate images that do not align well with human
preferences, such as awkward combinations of limbs and facial expressions. To
address this issue, we collect a dataset of human choices on generated images
from the Stable Foundation Discord channel. Our experiments demonstrate that
current evaluation metrics for generative models do not correlate well with
human choices. Thus, we train a human preference classifier with the collected
dataset and derive a Human Preference Score (HPS) based on the classifier.
Using HPS, we propose a simple yet effective method to adapt Stable Diffusion
to better align with human preferences. Our experiments show that HPS
outperforms CLIP in predicting human choices and has good generalization
capability toward images generated from other models. By tuning Stable
Diffusion with the guidance of HPS, the adapted model is able to generate
images that are more preferred by human users. The project page is available
here: https://tgxs002.github.io/align_sd_web/ .
- Abstract(参考訳): 近年、深層生成モデルが急速に成長し、テキストから画像へのモデルが大衆から注目を集めている。
しかし、既存のモデルは、手足と表情のぎこちない組み合わせなど、人間の好みとうまく一致しない画像を生成することが多い。
この問題に対処するために,我々は,安定基盤ディスコードチャネルから生成された画像から人間選択のデータセットを収集する。
本実験は, 生成モデルの評価基準が人間の選択とよく相関しないことを示す。
そこで我々は、収集したデータセットを用いて人選好分類器を訓練し、その分類器に基づいて人選好スコア(HPS)を導出する。
我々はHPSを用いて,ヒトの嗜好に合わせて安定拡散を適応する簡易かつ効果的な手法を提案する。
実験の結果,HPSはCLIPより優れ,他のモデルから生成された画像に対して優れた一般化能力を有することがわかった。
安定拡散をHPSの指導で調整することにより、適応モデルは人間の好む画像を生成することができる。
https://tgxs002.github.io/align_sd_web/。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences [0.0]
Diff-Instruct++ (DI++) は,1ステップのテキスト・ツー・イメージ・ジェネレータに対して,高速に収束し,画像データのない人間の嗜好アライメント手法である。
実験セクションでは,Diffusion 1.5 と PixelArt-$alpha$ を基準拡散プロセスとして使用した DI++ を用いて,UNet ベースと DiT ベースのワンステップジェネレータを連携させる。
結果のDiTベースのワンステップテキスト・ツー・イメージモデルは、検証プロンプトデータセット上で、6.19の強い美的スコアと1.24のイメージ・リワードを達成する
論文 参考訳(メタデータ) (2024-10-24T16:17:18Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - Learning Multi-dimensional Human Preference for Text-to-Image Generation [18.10755131392223]
テキスト・ツー・イメージ・モデル評価のための最初の多次元選好スコアモデルである多次元選好スコア(MPS)を提案する。
MPSはCLIPモデルに設定条件モジュールを導入し、これらの様々な好みを学習する。
MHP(Multi-dimensional Human Preference)データセットに基づいて,4次元にわたる918,315人の選好選択をトレーニングする。
論文 参考訳(メタデータ) (2024-05-23T15:39:43Z) - Enhancing Image Caption Generation Using Reinforcement Learning with
Human Feedback [0.0]
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討する。
これは、教師付き学習と強化学習と人間のフィードバックを統合することで達成された。
我々は、人間の協調型生成AIモデル分野における継続的な進歩に寄与することを願って、我々のアプローチと結果のスケッチを提供する。
論文 参考訳(メタデータ) (2024-03-11T13:57:05Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - Human Preference Score v2: A Solid Benchmark for Evaluating Human
Preferences of Text-to-Image Synthesis [38.70605308204128]
近年のテキスト・ツー・イメージ生成モデルでは,テキスト入力から高忠実度画像を生成することができる。
HPD v2は、幅広いソースの画像上の人間の好みをキャプチャする。
HPD v2は、433,760対の画像に対して798,090人の好みの選択を含む。
論文 参考訳(メタデータ) (2023-06-15T17:59:31Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。