論文の概要: ImageReward: Learning and Evaluating Human Preferences for Text-to-Image
Generation
- arxiv url: http://arxiv.org/abs/2304.05977v4
- Date: Thu, 28 Dec 2023 14:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 23:13:19.584368
- Title: ImageReward: Learning and Evaluating Human Preferences for Text-to-Image
Generation
- Title(参考訳): imagereward: テキストから画像への生成のための人間好みの学習と評価
- Authors: Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding,
Jie Tang, Yuxiao Dong
- Abstract要約: ImageRewardは、人間の嗜好報酬モデルである。
そのトレーニングは、評価やランキングを含む、系統的なアノテーションパイプラインに基づいています。
人間の評価では、ImageRewardは既存のスコアリングモデルやメトリクスよりも優れています。
- 参考スコア(独自算出の注目度): 30.977582244445742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comprehensive solution to learn and improve text-to-image models
from human preference feedback. To begin with, we build ImageReward -- the
first general-purpose text-to-image human preference reward model -- to
effectively encode human preferences. Its training is based on our systematic
annotation pipeline including rating and ranking, which collects 137k expert
comparisons to date. In human evaluation, ImageReward outperforms existing
scoring models and metrics, making it a promising automatic metric for
evaluating text-to-image synthesis. On top of it, we propose Reward Feedback
Learning (ReFL), a direct tuning algorithm to optimize diffusion models against
a scorer. Both automatic and human evaluation support ReFL's advantages over
compared methods. All code and datasets are provided at
\url{https://github.com/THUDM/ImageReward}.
- Abstract(参考訳): 人間の嗜好フィードバックからテキスト・ツー・イメージモデルを学び改善するための総合的なソリューションを提案する。
まず、imagereward -- 人間の好みを効果的にエンコードするために、最初の汎用テキストから画像への優先報酬モデル -- を構築します。
そのトレーニングは、評価やランキングを含む体系的なアノテーションパイプラインに基づいており、これまでに137kのエキスパート比較を収集しています。
人間の評価では、ImageRewardは既存のスコアリングモデルやメトリクスよりも優れており、テキストと画像の合成を評価するための有望な自動測定基準となっている。
その上で,スコアに対する拡散モデルを最適化する直接チューニングアルゴリズムであるReward Feedback Learning (ReFL)を提案する。
自動評価と人的評価は、比較手法よりもReFLの利点をサポートする。
すべてのコードとデータセットは \url{https://github.com/thudm/imagereward} で提供される。
関連論文リスト
- Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Human Preference Score v2: A Solid Benchmark for Evaluating Human
Preferences of Text-to-Image Synthesis [38.70605308204128]
近年のテキスト・ツー・イメージ生成モデルでは,テキスト入力から高忠実度画像を生成することができる。
HPD v2は、幅広いソースの画像上の人間の好みをキャプチャする。
HPD v2は、433,760対の画像に対して798,090人の好みの選択を含む。
論文 参考訳(メタデータ) (2023-06-15T17:59:31Z) - DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion
Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。
拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。
我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文 参考訳(メタデータ) (2023-05-25T17:35:38Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。