論文の概要: DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO
- arxiv url: http://arxiv.org/abs/2512.21514v1
- Date: Thu, 25 Dec 2025 05:37:37 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:54:05.595825
- Title: DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO
- Title(参考訳): DiverseGRPO: 多様性を考慮したGRPOによる画像生成におけるモード崩壊の軽減
- Authors: Henglin Liu, Huijuan Huang, Jing Wang, Chang Liu, Xiu Li, Xiangyang Ji,
- Abstract要約: 強化学習(RL)は、同一グループ内で生成された画像の相対的性能を比較することにより、画像生成品質を著しく向上させる。
トレーニングの後半段階では、モデルは創造性と視覚的多様性を欠いた均質化されたアウトプットを生成する傾向にある。
この問題は、報酬モデリングとジェネレーションダイナミクスの両方の観点から分析することができる。
- 参考スコア(独自算出の注目度): 50.89703227426486
- License:
- Abstract: Reinforcement learning (RL), particularly GRPO, improves image generation quality significantly by comparing the relative performance of images generated within the same group. However, in the later stages of training, the model tends to produce homogenized outputs, lacking creativity and visual diversity, which restricts its application scenarios. This issue can be analyzed from both reward modeling and generation dynamics perspectives. First, traditional GRPO relies on single-sample quality as the reward signal, driving the model to converge toward a few high-reward generation modes while neglecting distribution-level diversity. Second, conventional GRPO regularization neglects the dominant role of early-stage denoising in preserving diversity, causing a misaligned regularization budget that limits the achievable quality--diversity trade-off. Motivated by these insights, we revisit the diversity degradation problem from both reward modeling and generation dynamics. At the reward level, we propose a distributional creativity bonus based on semantic grouping. Specifically, we construct a distribution-level representation via spectral clustering over samples generated from the same caption, and adaptively allocate exploratory rewards according to group sizes to encourage the discovery of novel visual modes. At the generation level, we introduce a structure-aware regularization, which enforces stronger early-stage constraints to preserve diversity without compromising reward optimization efficiency. Experiments demonstrate that our method achieves a 13\%--18\% improvement in semantic diversity under matched quality scores, establishing a new Pareto frontier between image quality and diversity for GRPO-based image generation.
- Abstract(参考訳): 強化学習(RL)、特にGRPOは、同一グループ内で生成された画像の相対的性能を比較することにより、画像生成品質を著しく向上させる。
しかしながら、トレーニングの後半段階では、モデルは均質化されたアウトプットを生成する傾向にあり、創造性と視覚的多様性が欠如し、アプリケーションのシナリオが制限される。
この問題は、報酬モデリングとジェネレーションダイナミクスの両方の観点から分析することができる。
第一に、従来のGRPOは報酬信号として単一サンプルの品質に依存しており、分布レベルの多様性を無視しながら、モデルをいくつかの高逆生成モードに収束させる。
第2に、従来のGRPOレギュラー化は、多様性の維持における初期段階のデノベーションの主要な役割を無視しており、達成可能な品質-多様性のトレードオフを制限する不整合のレギュラー化予算を引き起こしている。
これらの知見により、報酬モデリングと生成ダイナミクスの両方から多様性劣化問題を再考する。
報酬レベルでは、セマンティックグルーピングに基づく分配的創造性ボーナスを提案する。
具体的には、同じキャプションから生成されたサンプルをスペクトルクラスタリングして分布レベルの表現を構築し、グループサイズに応じて探索報酬を適応的に割り当て、新しい視覚モードの発見を促す。
生成レベルでは、報奨最適化効率を損なうことなく、多様性を維持するためにより強い早期制約を強制する構造対応正規化を導入する。
実験により,提案手法は一致した品質スコアの下でのセマンティックな多様性を13-18-%向上させ,GRPOに基づく画像生成のための画像品質と多様性の新たなパレートフロンティアを確立した。
関連論文リスト
- DiverseAR: Boosting Diversity in Bitwise Autoregressive Image Generation [22.400053095939402]
視覚的品質を犠牲にすることなく、画像の多様性を高める、原則的で効果的な方法であるDiverseARを紹介する。
具体的には、サンプリング中のバイナリ出力分布のシャープネスを動的に調整する適応ロジット分布スケーリング機構を導入する。
分散平滑化による電位忠実度損失を軽減するため,低信頼トークンのサンプリングを回避するエネルギーベース生成経路探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-12-02T16:54:36Z) - DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models [23.12099227251494]
テスト時にテキスト条件付き視覚自己回帰モデル(VAR)の多様性を高めるフレームワークであるDiverse VARを紹介する。
Varモデルは、画像生成のための拡散とフローモデルに対する強力な競争相手として現れている。
Varモデルは多様性の限界に悩まされ、単純なプロンプトであってもほとんど同じ画像を生成する。
論文 参考訳(メタデータ) (2025-11-26T14:06:52Z) - Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Diversity-Rewarded CFG Distillation [62.08448835625036]
そこで本研究では,CFGの限界に対処しつつ,CFGの強度を蒸留する新しい微調整法であるCFG蒸留を導入する。
提案手法は,(1)蒸留目標,(CFGを使わずに)モデルのみにCFG拡張予測を模倣するよう促すこと,(2)多様性報酬を付与したRL目標,および与えられたプロンプトに対する多様な出力の生成を促進すること,の2つの訓練目標を最適化する。
論文 参考訳(メタデータ) (2024-10-08T14:40:51Z) - Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models [20.70550870149442]
Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
論文 参考訳(メタデータ) (2024-09-09T16:27:26Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。