Fugu-MT 論文翻訳(概要): ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

論文の概要: ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2304.05977v4
Date: Thu, 28 Dec 2023 14:13:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 23:13:19.584368
Title: ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation
Title（参考訳）: imagereward: テキストから画像への生成のための人間好みの学習と評価
Authors: Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong
Abstract要約: ImageRewardは、人間の嗜好報酬モデルである。そのトレーニングは、評価やランキングを含む、系統的なアノテーションパイプラインに基づいています。人間の評価では、ImageRewardは既存のスコアリングモデルやメトリクスよりも優れています。
参考スコア（独自算出の注目度）: 30.977582244445742
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a comprehensive solution to learn and improve text-to-image models from human preference feedback. To begin with, we build ImageReward -- the first general-purpose text-to-image human preference reward model -- to effectively encode human preferences. Its training is based on our systematic annotation pipeline including rating and ranking, which collects 137k expert comparisons to date. In human evaluation, ImageReward outperforms existing scoring models and metrics, making it a promising automatic metric for evaluating text-to-image synthesis. On top of it, we propose Reward Feedback Learning (ReFL), a direct tuning algorithm to optimize diffusion models against a scorer. Both automatic and human evaluation support ReFL's advantages over compared methods. All code and datasets are provided at \url{https://github.com/THUDM/ImageReward}.
Abstract（参考訳）: 人間の嗜好フィードバックからテキスト・ツー・イメージモデルを学び改善するための総合的なソリューションを提案する。まず、imagereward -- 人間の好みを効果的にエンコードするために、最初の汎用テキストから画像への優先報酬モデル -- を構築します。そのトレーニングは、評価やランキングを含む体系的なアノテーションパイプラインに基づいており、これまでに137kのエキスパート比較を収集しています。人間の評価では、ImageRewardは既存のスコアリングモデルやメトリクスよりも優れており、テキストと画像の合成を評価するための有望な自動測定基準となっている。その上で,スコアに対する拡散モデルを最適化する直接チューニングアルゴリズムであるReward Feedback Learning (ReFL)を提案する。自動評価と人的評価は、比較手法よりもReFLの利点をサポートする。すべてのコードとデータセットは \url{https://github.com/thudm/imagereward} で提供される。

関連論文リスト

Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [55.42794740244581]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文参考訳（メタデータ） (2025-05-22T15:05:07Z)
InstructEngine: Instruction-driven Text-to-Image Alignment [39.591411427738095]
InstructEngineはSD v1.5とSDXLのパフォーマンスを10.53%と5.30%改善し、最先端のベースラインを上回った。人間のレビューの50%以上の勝利率は、InstructEngineが人間の好みとよく一致していることを証明している。
論文参考訳（メタデータ） (2025-04-14T15:36:28Z)
Bridging the Gap: Aligning Text-to-Image Diffusion Models with Specific Feedback [5.415802995586328]
フィードバックからの学習は、テキスト間拡散モデルにおけるテキストプロンプトと画像の整合性を高めることが示されている。本稿では,3段階を含む特定の報酬目標を持つ効率的な微動法を提案する。このベンチマークによる実験結果から,本モデルはアライメントと忠実度の両方において,他のSOTA法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-11-28T09:56:28Z)
Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文参考訳（メタデータ） (2024-04-02T11:40:38Z)
UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文参考訳（メタデータ） (2023-10-02T17:40:01Z)
Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis [38.70605308204128]
近年のテキスト・ツー・イメージ生成モデルでは,テキスト入力から高忠実度画像を生成することができる。 HPD v2は、幅広いソースの画像上の人間の好みをキャプチャする。 HPD v2は、433,760対の画像に対して798,090人の好みの選択を含む。
論文参考訳（メタデータ） (2023-06-15T17:59:31Z)
DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文参考訳（メタデータ） (2023-05-25T17:35:38Z)
VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-03-24T23:57:28Z)
HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文参考訳（メタデータ） (2023-03-16T19:47:41Z)
Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文参考訳（メタデータ） (2023-02-23T17:34:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。