論文の概要: Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.20751v1
- Date: Thu, 28 Aug 2025 13:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.404836
- Title: Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
- Title(参考訳): Pref-GRPO: テキスト・画像強化学習のためのPairwise Preference Reward-based GRPO
- Authors: Yibin Wang, Zhimin Li, Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang,
- Abstract要約: 生成された画像を評価する現在の方法は、ハッキングに報奨を与える可能性がある。
Pref-GRPOを提案する。これは、最適化目標をスコアから好みのフィッティングにシフトさせ、より安定したトレーニングを確実にする。
既存のT2Iベンチマークは粗い評価基準によって制限されており、包括的なモデル評価を妨げる。
We introduced UniGenBench, a unified T2I benchmark including 600 prompts across 5 mainmes and 20 subthemes。
- 参考スコア(独自算出の注目度): 34.75717081153747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements highlight the importance of GRPO-based reinforcement learning methods and benchmarking in enhancing text-to-image (T2I) generation. However, current methods using pointwise reward models (RM) for scoring generated images are susceptible to reward hacking. We reveal that this happens when minimal score differences between images are amplified after normalization, creating illusory advantages that drive the model to over-optimize for trivial gains, ultimately destabilizing the image generation process. To address this, we propose Pref-GRPO, a pairwise preference reward-based GRPO method that shifts the optimization objective from score maximization to preference fitting, ensuring more stable training. In Pref-GRPO, images are pairwise compared within each group using preference RM, and the win rate is used as the reward signal. Extensive experiments demonstrate that PREF-GRPO differentiates subtle image quality differences, providing more stable advantages and mitigating reward hacking. Additionally, existing T2I benchmarks are limited by coarse evaluation criteria, hindering comprehensive model assessment. To solve this, we introduce UniGenBench, a unified T2I benchmark comprising 600 prompts across 5 main themes and 20 subthemes. It evaluates semantic consistency through 10 primary and 27 sub-criteria, leveraging MLLM for benchmark construction and evaluation. Our benchmarks uncover the strengths and weaknesses of both open and closed-source T2I models and validate the effectiveness of Pref-GRPO.
- Abstract(参考訳): 近年の進歩は、テキスト・ツー・イメージ(T2I)生成の強化におけるGRPOベースの強化学習手法とベンチマークの重要性を強調している。
しかし、画像のスコアリングにポイントワイズ報酬モデル(RM)を用いる現在の手法は、ハッキングに報酬を与える可能性がある。
正規化後の画像間のスコア差が最小限に抑えられると、モデルが自明なゲインのために過度に最適化され、最終的に画像生成プロセスが不安定になるという、明らかな利点が生じる。
そこで本稿では,最適化目標をスコア最大化から選好適合にシフトし,より安定したトレーニングを実現するための,ペアワイズな選好報酬ベースGRPO法であるPref-GRPOを提案する。
Pref−GRPOでは、選好RMを用いて各グループで画像をペアで比較し、報奨信号として勝利率を使用する。
大規模な実験では、PreF-GRPOは微妙な画質の違いを区別し、より安定した利点を提供し、報酬のハッキングを軽減している。
さらに、既存のT2Iベンチマークは粗い評価基準によって制限されており、包括的なモデル評価を妨げる。
この問題を解決するために、5つのメインテーマと20のサブテーマにわたる600のプロンプトからなる統一T2IベンチマークであるUniGenBenchを導入する。
10のプライマリと27のサブクリータを通したセマンティック一貫性を評価し、ベンチマークの構築と評価にMLLMを活用する。
本ベンチマークでは,オープンおよびクローズドソースT2Iモデルの長所と短所を明らかにし,Pref-GRPOの有効性を検証した。
関連論文リスト
- GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - GPT Meets Graphs and KAN Splines: Testing Novel Frameworks on Multitask Fine-Tuned GPT-2 with LoRA [0.0]
本稿では,学習可能なモジュールと解釈可能なモジュール,特にKAN(Kolmogorov-Arnold Networks)とグラフベース表現(GPT-2モデル)を統合する可能性について検討する。
論文 参考訳(メタデータ) (2025-03-25T19:58:25Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation [40.74782694945025]
本稿では,報酬重みを手動で調整する問題に対処するParrotを提案する。
我々は,新しいマルチリワード最適化アルゴリズムを用いて,T2Iモデルと即時拡張ネットワークを協調的に最適化する。
また,提案手法は,ユーザ入力に対するインプットの正確性を確保するために,推論時に独自のプロンプト中心のガイダンスを導入する。
論文 参考訳(メタデータ) (2024-01-11T05:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。