論文の概要: Better Aligning Text-to-Image Models with Human Preference
- arxiv url: http://arxiv.org/abs/2303.14420v1
- Date: Sat, 25 Mar 2023 10:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:53:12.181813
- Title: Better Aligning Text-to-Image Models with Human Preference
- Title(参考訳): 人選好によるテキスト・画像モデルの改良
- Authors: Xiaoshi Wu, Keqiang Sun, Feng Zhu, Rui Zhao, Hongsheng Li
- Abstract要約: 我々は、Stable Foundation Discordチャネルから生成された画像に基づいて、人間の選択のデータセットを収集する。
本実験は, 生成モデルに対する現在の評価指標が, 人間の選択とよく相関しないことを示した。
本研究では,ヒトの審美的嗜好に適合するために,安定拡散を適応する簡易かつ効果的な方法を提案する。
- 参考スコア(独自算出の注目度): 35.31989077767432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed a rapid growth of deep generative models, with
text-to-image models gaining significant attention from the public. However,
existing models often generate images that do not align well with human
aesthetic preferences, such as awkward combinations of limbs and facial
expressions. To address this issue, we collect a dataset of human choices on
generated images from the Stable Foundation Discord channel. Our experiments
demonstrate that current evaluation metrics for generative models do not
correlate well with human choices. Thus, we train a human preference classifier
with the collected dataset and derive a Human Preference Score (HPS) based on
the classifier. Using the HPS, we propose a simple yet effective method to
adapt Stable Diffusion to better align with human aesthetic preferences. Our
experiments show that the HPS outperforms CLIP in predicting human choices and
has good generalization capability towards images generated from other models.
By tuning Stable Diffusion with the guidance of the HPS, the adapted model is
able to generate images that are more preferred by human users.
- Abstract(参考訳): 近年、深層生成モデルが急速に成長し、テキストから画像へのモデルが大衆から注目を集めている。
しかし、既存のモデルは、手足のぎこちない組み合わせや表情など、人間の美的嗜好とうまく一致しない画像を生成することが多い。
この問題に対処するために,我々は,安定基盤ディスコードチャネルから生成された画像から人間選択のデータセットを収集する。
本実験は, 生成モデルの評価基準が人間の選択とよく相関しないことを示す。
そこで我々は、収集したデータセットを用いて人選好分類器を訓練し、その分類器に基づいて人選好スコア(HPS)を導出する。
我々はHPSを用いて,ヒトの美的嗜好に合わせて安定拡散を適応する簡易かつ効果的な方法を提案する。
実験の結果,HPSはCLIPより優れ,他のモデルから生成された画像に対して優れた一般化能力を有することがわかった。
hpsのガイダンスで安定した拡散をチューニングすることで、適応したモデルは、より人間に好まれる画像を生成することができる。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences [0.0]
Diff-Instruct++ (DI++) は,1ステップのテキスト・ツー・イメージ・ジェネレータに対して,高速に収束し,画像データのない人間の嗜好アライメント手法である。
実験セクションでは,Diffusion 1.5 と PixelArt-$alpha$ を基準拡散プロセスとして使用した DI++ を用いて,UNet ベースと DiT ベースのワンステップジェネレータを連携させる。
結果のDiTベースのワンステップテキスト・ツー・イメージモデルは、検証プロンプトデータセット上で、6.19の強い美的スコアと1.24のイメージ・リワードを達成する
論文 参考訳(メタデータ) (2024-10-24T16:17:18Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - Learning Multi-dimensional Human Preference for Text-to-Image Generation [18.10755131392223]
テキスト・ツー・イメージ・モデル評価のための最初の多次元選好スコアモデルである多次元選好スコア(MPS)を提案する。
MPSはCLIPモデルに設定条件モジュールを導入し、これらの様々な好みを学習する。
MHP(Multi-dimensional Human Preference)データセットに基づいて,4次元にわたる918,315人の選好選択をトレーニングする。
論文 参考訳(メタデータ) (2024-05-23T15:39:43Z) - Enhancing Image Caption Generation Using Reinforcement Learning with
Human Feedback [0.0]
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討する。
これは、教師付き学習と強化学習と人間のフィードバックを統合することで達成された。
我々は、人間の協調型生成AIモデル分野における継続的な進歩に寄与することを願って、我々のアプローチと結果のスケッチを提供する。
論文 参考訳(メタデータ) (2024-03-11T13:57:05Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - Human Preference Score v2: A Solid Benchmark for Evaluating Human
Preferences of Text-to-Image Synthesis [38.70605308204128]
近年のテキスト・ツー・イメージ生成モデルでは,テキスト入力から高忠実度画像を生成することができる。
HPD v2は、幅広いソースの画像上の人間の好みをキャプチャする。
HPD v2は、433,760対の画像に対して798,090人の好みの選択を含む。
論文 参考訳(メタデータ) (2023-06-15T17:59:31Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。