論文の概要: STAGE: Stable and Generalizable GRPO for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2509.25027v1
- Date: Mon, 29 Sep 2025 16:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.136022
- Title: STAGE: Stable and Generalizable GRPO for Autoregressive Image Generation
- Title(参考訳): STAGE: 自動回帰画像生成のための安定かつ一般化可能なGRPO
- Authors: Xiaoxiao Ma, Haibo Qiu, Guohui Zhang, Zhixiong Zeng, Siqi Yang, Lin Ma, Feng Zhao,
- Abstract要約: 近年,テキスト・ツー・イメージ・ジェネレーションを改善するために強化学習が研究されている。
既存のGRPOアルゴリズムを自己回帰(AR)イメージモデルに適用することは依然として困難である。
本研究では,AR画像生成のためのGRPOを再検討し,不必要なトークンからの矛盾した勾配と不安定なポリシーエントロピーダイナミクスの2つの主要な問題を特定する。
- 参考スコア(独自算出の注目度): 16.40446848402754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has recently been explored to improve text-to-image generation, yet applying existing GRPO algorithms to autoregressive (AR) image models remains challenging. The instability of the training process easily disrupts the pretrained model capability during long runs, resulting in marginal gains, degraded image quality, and poor generalization. In this work, we revisit GRPO for AR image generation and identify two key issues: contradictory gradients from unnecessary tokens and unstable policy entropy dynamics. To address these, we introduce STAGE, a stable and generalizable framework that leverages two targeted solutions: 1) Advantage/KL reweighting. Similarity-aware reweighting to alleviate conflicting updates; and 2) Entropy reward. An entropy-based reward corresponding to reference model to stabilize learning. With the help of alleviating conflicts between tokens and an entropy reward for stabilizing training, we reduce disruption of the pretrained distribution and mitigate reward hacking, which in turn improves generalization and transfer better to other benchmarks. Experiments across multiple benchmarks show that STAGE consistently improves visual quality, stability, and cross-task generalization compared to baseline GRPO.
- Abstract(参考訳): 強化学習はテキスト・画像生成を改善するために最近研究されているが、既存のGRPOアルゴリズムを自己回帰(AR)画像モデルに適用することは依然として困難である。
トレーニングプロセスの不安定さは、長期にわたる事前訓練されたモデル能力の破壊を容易にし、限界ゲイン、画質劣化、一般化不良をもたらす。
本研究では,AR画像生成のためのGRPOを再検討し,不必要なトークンからの矛盾した勾配と不安定なポリシーエントロピーダイナミクスの2つの主要な問題を特定する。
この問題に対処するために,2つの対象とするソリューションを活用する,安定的で一般化可能なフレームワークであるSTAGEを紹介します。
1) アドバンテージ/KLリウェイト。
類似性を認識したリウェイトにより、競合する更新を緩和する。
2)エントロピー報酬。
学習を安定させる基準モデルに対応するエントロピーに基づく報酬。
トークン間の衝突を緩和し、トレーニングを安定化するためのエントロピー報酬を付与することにより、事前訓練された分布の破壊を減らし、報酬のハッキングを緩和し、一般化と他のベンチマークへの転送を改善する。
複数のベンチマークで実験したところ、STAGEはベースラインのGRPOと比較して、視覚的品質、安定性、およびタスク間の一般化を一貫して改善している。
関連論文リスト
- Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation [110.03631978640298]
本稿では,視覚領域に次世代の予測パラダイムを適用するメカニズムについて,初めて体系的に検討する。
高レベルの視覚的意味論の学習を妨げる3つの重要な特性を同定する。
これらの課題は、訓練中に自己指導的目的を導入することで効果的に対処できることが示される。
論文 参考訳(メタデータ) (2025-09-18T17:47:40Z) - Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning [34.75717081153747]
生成された画像を評価する現在の方法は、ハッキングに報奨を与える可能性がある。
Pref-GRPOを提案する。これは、最適化目標をスコアから好みのフィッティングにシフトさせ、より安定したトレーニングを確実にする。
既存のT2Iベンチマークは粗い評価基準によって制限されており、包括的なモデル評価を妨げる。
We introduced UniGenBench, a unified T2I benchmark including 600 prompts across 5 mainmes and 20 subthemes。
論文 参考訳(メタデータ) (2025-08-28T13:11:24Z) - AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning [56.71089466532673]
本稿では,自己回帰(AR)画像生成モデルにオンラインRLトレーニングを統合するアプローチであるAR-GRPOを提案する。
クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方のイメージ生成タスクについて包括的な実験を行う。
その結果,様々な評価指標に対して一貫した改善が得られた。
論文 参考訳(メタデータ) (2025-08-09T10:37:26Z) - AR-RAG: Autoregressive Retrieval Augmentation for Image Generation [35.008697736838194]
本稿では, 自動回帰検索(AR-RAG)を導入し, パッチレベルでのケネレス近傍検索を自己回帰的に組み込むことにより, 画像生成を向上させる新しいパラダイムを提案する。
我々は、Midjourney-30K, GenEval, DPG-Benchなど、広く採用されているベンチマークにおけるAR-RAGの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-08T01:33:05Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。