論文の概要: GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
- arxiv url: http://arxiv.org/abs/2510.22319v2
- Date: Thu, 30 Oct 2025 09:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 13:50:54.714956
- Title: GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
- Title(参考訳): GRPO-Guard: 調整クリッピングによるフローマッチングにおける暗黙の過度最適化の軽減
- Authors: Jing Wang, Jiajun Liang, Jie Liu, Henglin Liu, Gongye Liu, Jun Zheng, Wanyuan Pang, Ao Ma, Zhenyu Xie, Xintao Wang, Meng Wang, Pengfei Wan, Xiaodan Liang,
- Abstract要約: GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
- 参考スコア(独自算出の注目度): 63.33669214116784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, GRPO-based reinforcement learning has shown remarkable progress in optimizing flow-matching models, effectively improving their alignment with task-specific rewards. Within these frameworks, the policy update relies on importance-ratio clipping to constrain overconfident positive and negative gradients. However, in practice, we observe a systematic shift in the importance-ratio distribution-its mean falls below 1 and its variance differs substantially across timesteps. This left-shifted and inconsistent distribution prevents positive-advantage samples from entering the clipped region, causing the mechanism to fail in constraining overconfident positive updates. As a result, the policy model inevitably enters an implicit over-optimization stage-while the proxy reward continues to increase, essential metrics such as image quality and text-prompt alignment deteriorate sharply, ultimately making the learned policy impractical for real-world use. To address this issue, we introduce GRPO-Guard, a simple yet effective enhancement to existing GRPO frameworks. Our method incorporates ratio normalization, which restores a balanced and step-consistent importance ratio, ensuring that PPO clipping properly constrains harmful updates across denoising timesteps. In addition, a gradient reweighting strategy equalizes policy gradients over noise conditions, preventing excessive updates from particular timestep regions. Together, these designs act as a regulated clipping mechanism, stabilizing optimization and substantially mitigating implicit over-optimization without relying on heavy KL regularization. Extensive experiments on multiple diffusion backbones (e.g., SD3.5M, Flux.1-dev) and diverse proxy tasks demonstrate that GRPO-Guard significantly reduces over-optimization while maintaining or even improving generation quality.
- Abstract(参考訳): 近年,GRPOに基づく強化学習は,フローマッチングモデルの最適化において顕著な進歩を示し,タスク固有報酬との整合性を効果的に改善している。
これらのフレームワーク内では、ポリシー更新は重要度クリッピングに依存して、自信過剰な正と負の勾配を制約する。
しかし、実際には、重要比分布の平均値が1を下回る体系的な変化が観察され、その差は時間経過によって大きく異なる。
この左シフトの不整合分布は、正のアドバンテージサンプルがクリップされた領域に入るのを防ぎ、過信のポジティブな更新を制限するメカニズムを失敗させる。
その結果、ポリシーモデルが暗黙の過度な最適化段階に入ることは避けられないが、プロキシ報酬は増加し続け、画像の品質やテキストプロンプトアライメントといった重要な指標が急激に低下し、最終的に学習されたポリシーが現実の用途では実行不可能となる。
この問題に対処するため,既存のGRPOフレームワークの簡易かつ効果的な拡張であるGRPO-Guardを紹介した。
本手法は,PPOクリッピングが有害な更新を適切に抑制することを保証するために,バランスの取れた,ステップ一貫性の高い重要度を回復する比率正規化を取り入れている。
さらに、勾配再重み付け戦略は、ノイズ条件に対するポリシー勾配を等しくし、特定の時間ステップ領域からの過度な更新を防止する。
これらの設計は、規制されたクリッピング機構として機能し、最適化を安定化し、重いKL正規化に頼ることなく暗黙的な過最適化を実質的に緩和する。
複数の拡散バックボーン(例:SD3.5M、Flux.1-dev)と多様なプロキシタスクに関する大規模な実験は、GRPO-Guardが生成品質を維持したり改善したりしながら過度な最適化を著しく減少させることを示した。
関連論文リスト
- BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - GTPO: Trajectory-Based Policy Optimization in Large Language Models [42.60363805227946]
政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
論文 参考訳(メタデータ) (2025-08-05T08:15:01Z) - On the Theory and Practice of GRPO: A Trajectory-Corrected Approach with Fast Convergence [2.8165669455824696]
Group Relative Policy Optimizationは、批判のない強化学習アルゴリズムである。
GRPO更新規則は,現行の方針よりも旧方針の政策勾配を推定する。
軌道レベルの重要度補正 GRPO という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:01:19Z) - Geometric-Mean Policy Optimization [117.05113769757172]
グループ相対政策最適化(GRPO)は,大規模言語モデルの推論能力を大幅に向上させた。
GRPOは、不利な重要度重み付けされた報酬を持つトークンに直面すると、不安定なポリシー更新に悩まされる。
本稿では,GRPOの安定性を向上させるために,トークン報酬の出力を抑えることにより,GMPO(Geometric-Mean Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。