論文の概要: PromptRL: Prompt Matters in RL for Flow-Based Image Generation
- arxiv url: http://arxiv.org/abs/2602.01382v1
- Date: Sun, 01 Feb 2026 18:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.759601
- Title: PromptRL: Prompt Matters in RL for Flow-Based Image Generation
- Title(参考訳): PromptRL:フローベース画像生成におけるRLのプロンプト問題
- Authors: Fu-Yun Wang, Han Zhang, Michael Gharbi, Hongsheng Li, Taesung Park,
- Abstract要約: 本稿では,言語モデル(LM)をフローベース強化学習ループ内で直接訓練可能な即時改善エージェントとして組み込んだフレームワークであるPromptRLを提案する。
PromptRLは、GenEvalで0.97、OCRで0.98、PickScoreで24.05、複数のベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 44.81148439118129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow matching models (FMs) have revolutionized text-to-image (T2I) generation, with reinforcement learning (RL) serving as a critical post-training strategy for alignment with reward objectives. In this research, we show that current RL pipelines for FMs suffer from two underappreciated yet important limitations: sample inefficiency due to insufficient generation diversity, and pronounced prompt overfitting, where models memorize specific training formulations and exhibit dramatic performance collapse when evaluated on semantically equivalent but stylistically varied prompts. We present PromptRL (Prompt Matters in RL for Flow-Based Image Generation), a framework that incorporates language models (LMs) as trainable prompt refinement agents directly within the flow-based RL optimization loop. This design yields two complementary benefits: rapid development of sophisticated prompt rewriting capabilities and, critically, a synergistic training regime that reshapes the optimization dynamics. PromptRL achieves state-of-the-art performance across multiple benchmarks, obtaining scores of 0.97 on GenEval, 0.98 on OCR accuracy, and 24.05 on PickScore. Furthermore, we validate the effectiveness of our RL approach on large-scale image editing models, improving the EditReward of FLUX.1-Kontext from 1.19 to 1.43 with only 0.06 million rollouts, surpassing Gemini 2.5 Flash Image (also known as Nano Banana), which scores 1.37, and achieving comparable performance with ReasonNet (1.44), which relied on fine-grained data annotations along with a complex multi-stage training. Our extensive experiments empirically demonstrate that PromptRL consistently achieves higher performance ceilings while requiring over 2$\times$ fewer rollouts compared to naive flow-only RL. Our code is available at https://github.com/G-U-N/UniRL.
- Abstract(参考訳): フローマッチングモデル(FM)はテキスト・ツー・イメージ(T2I)生成に革命をもたらし、強化学習(RL)は報酬目標と整合するための重要なポストトレーニング戦略として機能している。
本研究では,現在のFM用RLパイプラインには,生成多様性の不足によるサンプルの非効率性の低下と,特定のトレーニング定式化を記憶し,意味論的に等価だがスタイリスティックに変化するプロンプトに基づいて評価した場合に,劇的な性能低下を示すプロンプトオーバーフィッティングという,不適切な2つの制限が課されていることを示す。
本稿では,言語モデル(LM)をフローベースRL最適化ループ内で直接トレーニング可能なプロンプトリファインメントエージェントとして組み込んだフレームワークであるPromptRLを提案する。
この設計は2つの相補的な利点をもたらす:洗練された急進的な書き換え能力の迅速な開発と、重要なことに最適化のダイナミクスを再評価する相乗的な訓練体制である。
PromptRLは、GenEvalで0.97、OCRで0.98、PickScoreで24.05、複数のベンチマークで最先端のパフォーマンスを実現している。
さらに、大規模画像編集モデルにおけるRLアプローチの有効性を検証するとともに、FLUX.1-KontextのEditRewardをわずか0.06万ロールアウトで1.19から1.43に改善し、スコア1.37のGemini 2.5 Flash Image(Nano Banana)を超え、複雑なマルチステージトレーニングとともに詳細なデータアノテーションに依存したReasonNet(1.44)で同等のパフォーマンスを達成した。
実験により, PromptRLはフローオンリーのRLに比べて, 2$\times$以上のロールアウトを必要としながら, 常に高い性能の天井を達成できることが実証された。
私たちのコードはhttps://github.com/G-U-N/UniRL.comで公開されています。
関連論文リスト
- CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning [37.20873499361773]
マスク付き拡散大言語モデル (dLLM) を学習し, より優れた推論を行うための統一フレームワークを提案する。
我々はまず,既存の基本方針を,真のdLLM政策の近似としてはるかに難易度の高い,政治外RLによるサロゲート政策の訓練により統一する。
RLでは、各プロンプトに対して推論閾値を適応的に割り当てることによって、dLLMの自然なマルチトークン予測能力をインセンティブ化する。
論文 参考訳(メタデータ) (2025-10-02T16:57:24Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。
RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。
RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文 参考訳(メタデータ) (2024-03-25T15:40:22Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。