論文の概要: AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.06924v1
- Date: Sat, 09 Aug 2025 10:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.615849
- Title: AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning
- Title(参考訳): AR-GRPO:強化学習による自己回帰画像生成モデルの訓練
- Authors: Shihao Yuan, Yahui Liu, Yang Yue, Jingyuan Zhang, Wangmeng Zuo, Qi Wang, Fuzheng Zhang, Guorui Zhou,
- Abstract要約: 本稿では,自己回帰(AR)画像生成モデルにオンラインRLトレーニングを統合するアプローチであるAR-GRPOを提案する。
クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方のイメージ生成タスクについて包括的な実験を行う。
その結果,様々な評価指標に対して一貫した改善が得られた。
- 参考スコア(独自算出の注目度): 56.71089466532673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the success of reinforcement learning (RL) in refining large language models (LLMs), we propose AR-GRPO, an approach to integrate online RL training into autoregressive (AR) image generation models. We adapt the Group Relative Policy Optimization (GRPO) algorithm to refine the vanilla autoregressive models' outputs by carefully designed reward functions that evaluate generated images across multiple quality dimensions, including perceptual quality, realism, and semantic fidelity. We conduct comprehensive experiments on both class-conditional (i.e., class-to-image) and text-conditional (i.e., text-to-image) image generation tasks, demonstrating that our RL-enhanced framework significantly improves both the image quality and human preference of generated images compared to the standard AR baselines. Our results show consistent improvements across various evaluation metrics, establishing the viability of RL-based optimization for AR image generation and opening new avenues for controllable and high-quality image synthesis. The source codes and models are available at: https://github.com/Kwai-Klear/AR-GRPO.
- Abstract(参考訳): 大規模言語モデル(LLM)の精製における強化学習(RL)の成功に触発されて,オンラインRLトレーニングを自己回帰(AR)画像生成モデルに統合するアプローチであるAR-GRPOを提案する。
我々はグループ相対政策最適化(GRPO)アルゴリズムを適用し、知覚品質、リアリズム、意味的忠実度を含む複数の品質次元で生成された画像を評価する報酬関数を慎重に設計し、バニラ自己回帰モデルの出力を改良する。
我々は、クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方の画像生成タスクに関する包括的な実験を行い、我々のRL拡張フレームワークは、標準のARベースラインと比較して、生成した画像の画質と人間の嗜好の両方を著しく改善することを示した。
本研究では,AR画像生成のためのRLに基づく最適化の実現可能性を確立し,制御可能で高品質な画像合成のための新たな道を開くことにより,様々な評価指標間で一貫した改善が得られた。
ソースコードとモデルは、https://github.com/Kwai-Klear/AR-GRPO.comで入手できる。
関連論文リスト
- ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL [54.100889131719626]
連鎖推論と強化学習がNLPの突破口となった。
我々はReasonGen-R1を紹介した。ReasonGen-R1は自動回帰画像生成器に明示的なテキストベースの「思考」スキルを付与するフレームワークである。
ReasonGen-R1は、強いベースラインや先行技術モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:59:48Z) - Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization [1.1510009152620668]
強化学習(Reinforcement Learning, RL)を用いた微調整事前学習生成モデルは, 出力と人間の嗜好を整合させる効果的なアプローチとして登場した。
RLに基づくファインチューニングは、VARモデルに対して効率的かつ効果的であり、特に高速な推論速度の恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2025-05-29T10:45:38Z) - Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。
RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。
RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文 参考訳(メタデータ) (2024-03-25T15:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。