論文の概要: STAGE: Stable and Generalizable GRPO for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2509.25027v1
- Date: Mon, 29 Sep 2025 16:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.136022
- Title: STAGE: Stable and Generalizable GRPO for Autoregressive Image Generation
- Title(参考訳): STAGE: 自動回帰画像生成のための安定かつ一般化可能なGRPO
- Authors: Xiaoxiao Ma, Haibo Qiu, Guohui Zhang, Zhixiong Zeng, Siqi Yang, Lin Ma, Feng Zhao,
- Abstract要約: 近年,テキスト・ツー・イメージ・ジェネレーションを改善するために強化学習が研究されている。
既存のGRPOアルゴリズムを自己回帰(AR)イメージモデルに適用することは依然として困難である。
本研究では,AR画像生成のためのGRPOを再検討し,不必要なトークンからの矛盾した勾配と不安定なポリシーエントロピーダイナミクスの2つの主要な問題を特定する。
- 参考スコア(独自算出の注目度): 16.40446848402754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has recently been explored to improve text-to-image generation, yet applying existing GRPO algorithms to autoregressive (AR) image models remains challenging. The instability of the training process easily disrupts the pretrained model capability during long runs, resulting in marginal gains, degraded image quality, and poor generalization. In this work, we revisit GRPO for AR image generation and identify two key issues: contradictory gradients from unnecessary tokens and unstable policy entropy dynamics. To address these, we introduce STAGE, a stable and generalizable framework that leverages two targeted solutions: 1) Advantage/KL reweighting. Similarity-aware reweighting to alleviate conflicting updates; and 2) Entropy reward. An entropy-based reward corresponding to reference model to stabilize learning. With the help of alleviating conflicts between tokens and an entropy reward for stabilizing training, we reduce disruption of the pretrained distribution and mitigate reward hacking, which in turn improves generalization and transfer better to other benchmarks. Experiments across multiple benchmarks show that STAGE consistently improves visual quality, stability, and cross-task generalization compared to baseline GRPO.
- Abstract(参考訳): 強化学習はテキスト・画像生成を改善するために最近研究されているが、既存のGRPOアルゴリズムを自己回帰(AR)画像モデルに適用することは依然として困難である。
トレーニングプロセスの不安定さは、長期にわたる事前訓練されたモデル能力の破壊を容易にし、限界ゲイン、画質劣化、一般化不良をもたらす。
本研究では,AR画像生成のためのGRPOを再検討し,不必要なトークンからの矛盾した勾配と不安定なポリシーエントロピーダイナミクスの2つの主要な問題を特定する。
この問題に対処するために,2つの対象とするソリューションを活用する,安定的で一般化可能なフレームワークであるSTAGEを紹介します。
1) アドバンテージ/KLリウェイト。
類似性を認識したリウェイトにより、競合する更新を緩和する。
2)エントロピー報酬。
学習を安定させる基準モデルに対応するエントロピーに基づく報酬。
トークン間の衝突を緩和し、トレーニングを安定化するためのエントロピー報酬を付与することにより、事前訓練された分布の破壊を減らし、報酬のハッキングを緩和し、一般化と他のベンチマークへの転送を改善する。
複数のベンチマークで実験したところ、STAGEはベースラインのGRPOと比較して、視覚的品質、安定性、およびタスク間の一般化を一貫して改善している。
関連論文リスト
- AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution [16.90182090355781]
視覚的自己回帰モデルは、次のスケールの予測を通じて安定したトレーニング、非定性推論、高忠実性合成を提供する。
しかし、その応用は未調査のままであり、局所性に偏った注意と残留性のみの監督という2つの重要な課題に直面している。
画像超解像に適した一貫した視覚自己回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-28T10:39:06Z) - DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO [50.89703227426486]
強化学習(RL)は、同一グループ内で生成された画像の相対的性能を比較することにより、画像生成品質を著しく向上させる。
トレーニングの後半段階では、モデルは創造性と視覚的多様性を欠いた均質化されたアウトプットを生成する傾向にある。
この問題は、報酬モデリングとジェネレーションダイナミクスの両方の観点から分析することができる。
論文 参考訳(メタデータ) (2025-12-25T05:37:37Z) - Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - From Competition to Synergy: Unlocking Reinforcement Learning for Subject-Driven Image Generation [37.43722287763904]
被写体駆動画像生成モデルは、アイデンティティ保存(忠実さ)とアクシデンス(親和性)の基本的なトレードオフに直面している
本稿では,Synergy-Aware Reward ShapingとTime-Aware Dynamic Weightingという2つの重要なイノベーションを特徴とする新しいフレームワークを提案する。
本モデルでは,重要な特徴を保存し,複雑なテキストのプロンプトに正確に準拠する画像を生成する。
論文 参考訳(メタデータ) (2025-10-21T03:32:26Z) - Towards Better & Faster Autoregressive Image Generation: From the Perspective of Entropy [23.573364375818553]
本研究は,現在の自己回帰画像生成モデルにおけるサンプリング問題を再検討する。
画像トークンは、テキストトークンとは異なり、低い情報密度と一様でない空間分布を示す。
本稿では,高速な合成速度で自己回帰生成品質を向上させるエントロピーインフォームデコード戦略を提案する。
論文 参考訳(メタデータ) (2025-10-10T05:26:11Z) - PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models [54.18605375476406]
安定的な客観的な改革と原則的なタイムステップの再重み付けを通じて、比例的な信用割当を強制する枠組みであるPCPO(Proportionate Credit Policy Optimization)を導入する。
PCPOは、最先端のDanceGRPOを含むすべての面で、既存の方針勾配ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-09-30T04:43:58Z) - Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation [110.03631978640298]
本稿では,視覚領域に次世代の予測パラダイムを適用するメカニズムについて,初めて体系的に検討する。
高レベルの視覚的意味論の学習を妨げる3つの重要な特性を同定する。
これらの課題は、訓練中に自己指導的目的を導入することで効果的に対処できることが示される。
論文 参考訳(メタデータ) (2025-09-18T17:47:40Z) - Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning [34.75717081153747]
生成された画像を評価する現在の方法は、ハッキングに報奨を与える可能性がある。
Pref-GRPOを提案する。これは、最適化目標をスコアから好みのフィッティングにシフトさせ、より安定したトレーニングを確実にする。
既存のT2Iベンチマークは粗い評価基準によって制限されており、包括的なモデル評価を妨げる。
We introduced UniGenBench, a unified T2I benchmark including 600 prompts across 5 mainmes and 20 subthemes。
論文 参考訳(メタデータ) (2025-08-28T13:11:24Z) - AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning [56.71089466532673]
本稿では,自己回帰(AR)画像生成モデルにオンラインRLトレーニングを統合するアプローチであるAR-GRPOを提案する。
クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方のイメージ生成タスクについて包括的な実験を行う。
その結果,様々な評価指標に対して一貫した改善が得られた。
論文 参考訳(メタデータ) (2025-08-09T10:37:26Z) - AR-RAG: Autoregressive Retrieval Augmentation for Image Generation [35.008697736838194]
本稿では, 自動回帰検索(AR-RAG)を導入し, パッチレベルでのケネレス近傍検索を自己回帰的に組み込むことにより, 画像生成を向上させる新しいパラダイムを提案する。
我々は、Midjourney-30K, GenEval, DPG-Benchなど、広く採用されているベンチマークにおけるAR-RAGの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-08T01:33:05Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。