論文の概要: The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation
- arxiv url: http://arxiv.org/abs/2511.20256v1
- Date: Tue, 25 Nov 2025 12:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.4562
- Title: The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation
- Title(参考訳): 自己の逆境としてのイメージ:画像生成のための逆境を用いた強化学習
- Authors: Weijia Mao, Hao Chen, Zhenheng Yang, Mike Zheng Shou,
- Abstract要約: 本稿では、報酬モデルとジェネレータの両方を反復的に更新する逆報酬を持つRLフレームワークであるAdv-GRPOを紹介する。
パラメータ更新を制約するKL正規化とは異なり、学習した報酬は生成元を直接視覚出力に導く。
人的評価では,Flow-GRPO と SD3 がそれぞれ 70.0% と 72.4% の画像品質,美学に優れていた。
- 参考スコア(独自算出の注目度): 52.648073272395635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A reliable reward function is essential for reinforcement learning (RL) in image generation. Most current RL approaches depend on pre-trained preference models that output scalar rewards to approximate human preferences. However, these rewards often fail to capture human perception and are vulnerable to reward hacking, where higher scores do not correspond to better images. To address this, we introduce Adv-GRPO, an RL framework with an adversarial reward that iteratively updates both the reward model and the generator. The reward model is supervised using reference images as positive samples and can largely avoid being hacked. Unlike KL regularization that constrains parameter updates, our learned reward directly guides the generator through its visual outputs, leading to higher-quality images. Moreover, while optimizing existing reward functions can alleviate reward hacking, their inherent biases remain. For instance, PickScore may degrade image quality, whereas OCR-based rewards often reduce aesthetic fidelity. To address this, we take the image itself as a reward, using reference images and vision foundation models (e.g., DINO) to provide rich visual rewards. These dense visual signals, instead of a single scalar, lead to consistent gains across image quality, aesthetics, and task-specific metrics. Finally, we show that combining reference samples with foundation-model rewards enables distribution transfer and flexible style customization. In human evaluation, our method outperforms Flow-GRPO and SD3, achieving 70.0% and 72.4% win rates in image quality and aesthetics, respectively. Code and models have been released.
- Abstract(参考訳): 画像生成における強化学習(RL)には信頼性の高い報酬関数が不可欠である。
現在のRLアプローチのほとんどは、人間の好みを近似するためにスカラー報酬を出力する事前訓練された嗜好モデルに依存している。
しかしながら、これらの報酬はしばしば人間の知覚を捉えることができず、より高いスコアがより良い画像に対応しないハッキングに対して脆弱である。
そこで本稿では,報酬モデルとジェネレータの両方を反復的に更新する逆報酬を持つRLフレームワークであるAdv-GRPOを紹介する。
報酬モデルは、正のサンプルとして参照画像を使用して監視され、ハッキングを避けることができる。
パラメータ更新を制約するKL正規化とは異なり、学習した報酬は、その視覚出力を直接誘導し、高品質な画像を生成する。
さらに、既存の報酬関数の最適化は報酬のハッキングを緩和するが、その固有のバイアスは残る。
例えば、PickScoreは画質を低下させるが、OCRベースの報酬は美的忠実度を低下させる。
これを解決するために、画像自体を報酬として、参照画像と視覚基盤モデル(例えば、DINO)を用いて、豊かな視覚的報酬を提供する。
これらの濃密な視覚信号は、単一のスカラーではなく、画像の品質、美学、タスク固有のメトリクスに一貫した利得をもたらす。
最後に、参照サンプルと基礎モデル報酬を組み合わせることで、分散転送とフレキシブルなスタイルのカスタマイズが可能になることを示す。
人的評価では,Flow-GRPO と SD3 がそれぞれ 70.0% と 72.4% の画像品質,美学に優れていた。
コードとモデルがリリースされた。
関連論文リスト
- MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency [21.27005111847166]
現在のテキスト・ツー・イメージ生成モデルは、大規模な未処理データセットに基づいて訓練されている。
トレーニング中に複数の報酬モデルにモデルを条件付けすることで,モデルがユーザの好みを直接学習できるようにする。
論文 参考訳(メタデータ) (2025-10-29T18:59:17Z) - Residual Reward Models for Preference-based Reinforcement Learning [11.797520525358564]
優先度に基づく強化学習(PbRL)は、報酬信号の特定が難しい環境で、高性能なポリシーを学習する方法を提供する。
PbRLは報酬モデルでのトレーニングを必要とするため、収束速度が遅い。
本稿では,Residual Reward Model (RRM) を用いた事前知識の有効活用手法を提案する。
論文 参考訳(メタデータ) (2025-07-01T09:43:57Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - T-REG: Preference Optimization with Token-Level Reward Regularization [35.07328450591201]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。
最近の手法ではトークンレベルの報酬を導入してこの制限に対処しようと試みている。
本稿では,トークンレベルの報酬を優先最適化に利用する新しい手法であるトークンレベルの報酬正規化(T-REG)を提案する。
論文 参考訳(メタデータ) (2024-12-03T18:56:07Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。