論文の概要: PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models
- arxiv url: http://arxiv.org/abs/2509.25774v1
- Date: Tue, 30 Sep 2025 04:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.017312
- Title: PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models
- Title(参考訳): PCPO:画像生成モデル調整のための多元的信用政策最適化
- Authors: Jeongjae Lee, Jong Chul Ye,
- Abstract要約: 安定的な客観的な改革と原則的なタイムステップの再重み付けを通じて、比例的な信用割当を強制する枠組みであるPCPO(Proportionate Credit Policy Optimization)を導入する。
PCPOは、最先端のDanceGRPOを含むすべての面で、既存の方針勾配ベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 54.18605375476406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning has advanced the alignment of text-to-image (T2I) models, state-of-the-art policy gradient methods are still hampered by training instability and high variance, hindering convergence speed and compromising image quality. Our analysis identifies a key cause of this instability: disproportionate credit assignment, in which the mathematical structure of the generative sampler produces volatile and non-proportional feedback across timesteps. To address this, we introduce Proportionate Credit Policy Optimization (PCPO), a framework that enforces proportional credit assignment through a stable objective reformulation and a principled reweighting of timesteps. This correction stabilizes the training process, leading to significantly accelerated convergence and superior image quality. The improvement in quality is a direct result of mitigating model collapse, a common failure mode in recursive training. PCPO substantially outperforms existing policy gradient baselines on all fronts, including the state-of-the-art DanceGRPO.
- Abstract(参考訳): 強化学習はテキスト・ツー・イメージ(T2I)モデルのアライメントを推し進めてきたが、現状の方針勾配法はいまだにトレーニングの不安定性と高分散によって妨げられ、収束速度を妨げ、画像品質を損なう。
生成標本の数学的構造が時間経過を通じて揮発性および非局所的なフィードバックを生じる不均質な信用割当である。
これを解決するために,安定的な客観的な改革と原則的なタイムステップの再重み付けを通じて,比例的な信用割当を実施する枠組みであるProportionate Credit Policy Optimization (PCPO)を導入する。
この補正によりトレーニングプロセスが安定化され、コンバージェンスが大幅に向上し、画質が向上する。
品質の向上は、再帰的トレーニングにおける共通の失敗モードであるモデル崩壊の緩和の直接的な結果である。
PCPOは、最先端のDanceGRPOを含むすべての面で、既存の方針勾配ベースラインを大幅に上回っている。
関連論文リスト
- STAGE: Stable and Generalizable GRPO for Autoregressive Image Generation [16.40446848402754]
近年,テキスト・ツー・イメージ・ジェネレーションを改善するために強化学習が研究されている。
既存のGRPOアルゴリズムを自己回帰(AR)イメージモデルに適用することは依然として困難である。
本研究では,AR画像生成のためのGRPOを再検討し,不必要なトークンからの矛盾した勾配と不安定なポリシーエントロピーダイナミクスの2つの主要な問題を特定する。
論文 参考訳(メタデータ) (2025-09-29T16:50:21Z) - TempFlow-GRPO: When Timing Matters for GRPO in Flow Models [22.023027865557637]
本稿では,フローベース生成に固有の時間構造を捕捉し,活用する,原理的なGRPOフレームワークを提案する。
新しい革新は、基礎となる生成力学を尊重する時間的に認識された最適化をモデルに与える。
論文 参考訳(メタデータ) (2025-08-06T11:10:39Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Generative Diffusion Prior for Unified Image Restoration and Enhancement [62.76390152617949]
既存の画像復元法は、主に自然画像の後方分布を利用する。
教師なしサンプリング方式で後部分布を効果的にモデル化するための生成拡散優先(GDP)を提案する。
GDPは、線形逆問題、非線形問題、ブラインド問題を解くために、プレトレインデノナイジング拡散生成モデル(DDPM)を利用する。
論文 参考訳(メタデータ) (2023-04-03T16:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。