論文の概要: ImageReward: Learning and Evaluating Human Preferences for Text-to-Image
Generation
- arxiv url: http://arxiv.org/abs/2304.05977v2
- Date: Thu, 13 Apr 2023 00:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 10:32:55.859994
- Title: ImageReward: Learning and Evaluating Human Preferences for Text-to-Image
Generation
- Title(参考訳): imagereward: テキストから画像への生成のための人間好みの学習と評価
- Authors: Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding,
Jie Tang, Yuxiao Dong
- Abstract要約: ImageRewardは、人間の嗜好報酬モデルとして初めての汎用テキスト・ツー・イメージである。
そのトレーニングは、評価コンポーネントとランキングコンポーネントの両方をカバーする、体系的なアノテーションパイプラインに基づいています。
人間の評価では、ImageRewardは既存のスコアリング方法よりも優れています。
- 参考スコア(独自算出の注目度): 28.35504557203114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ImageReward -- the first general-purpose text-to-image human
preference reward model -- to address various prevalent issues in generative
models and align them with human values and preferences. Its training is based
on our systematic annotation pipeline that covers both the rating and ranking
components, collecting a dataset of 137k expert comparisons to date. In human
evaluation, ImageReward outperforms existing scoring methods (e.g., CLIP by
38.6\%), making it a promising automatic metric for evaluating and improving
text-to-image synthesis. The reward model is publicly available via the
\texttt{image-reward} package at \url{https://github.com/THUDM/ImageReward}.
- Abstract(参考訳): 我々はimagereward(最初の汎用テキストから画像への人間選好報酬モデル)を用いて、生成モデルにおける様々な一般的な問題に対処し、それらを人間の価値と選好に合わせる。
そのトレーニングは、評価とランク付けの両方をカバーする体系的なアノテーションパイプラインに基づいており、これまでに137kのエキスパート比較のデータセットを集めています。
人間の評価において、ImageRewardは既存のスコアリング手法(例えばCLIP×38.6\%)より優れており、テキスト・画像合成の評価と改善のための有望な自動測定基準となっている。
報酬モデルは \texttt{image-reward} package at \url{https://github.com/THUDM/ImageReward} で公開されている。
関連論文リスト
- Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Human Preference Score v2: A Solid Benchmark for Evaluating Human
Preferences of Text-to-Image Synthesis [38.70605308204128]
近年のテキスト・ツー・イメージ生成モデルでは,テキスト入力から高忠実度画像を生成することができる。
HPD v2は、幅広いソースの画像上の人間の好みをキャプチャする。
HPD v2は、433,760対の画像に対して798,090人の好みの選択を含む。
論文 参考訳(メタデータ) (2023-06-15T17:59:31Z) - DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion
Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。
拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。
我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文 参考訳(メタデータ) (2023-05-25T17:35:38Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。