論文の概要: Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO
- arxiv url: http://arxiv.org/abs/2602.06422v1
- Date: Fri, 06 Feb 2026 06:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.260989
- Title: Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO
- Title(参考訳): フローベースGRPOにおけるステップワイズと長期サンプリング効果のモデル化によるスパースリワードの緩和
- Authors: Yunze Tong, Mushui Liu, Canyu Zhao, Wanggui He, Shiyi Zhang, Hongwei Zhang, Peng Zhang, Jinlong Liu, Ju Huang, Jiamang Wang, Hao Jiang, Pipei Huang,
- Abstract要約: TP-GRPOは成果ベースの報酬を段階的なインクリメンタル報酬に置き換える。
ローカルな報酬傾向を反転させるポイントステップのターンを識別する。
ターンポイントは、インクリメンタル報酬のサイン変更によってのみ検出される。
- 参考スコア(独自算出の注目度): 20.13873375670213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying GRPO on Flow Matching models has proven effective for text-to-image generation. However, existing paradigms typically propagate an outcome-based reward to all preceding denoising steps without distinguishing the local effect of each step. Moreover, current group-wise ranking mainly compares trajectories at matched timesteps and ignores within-trajectory dependencies, where certain early denoising actions can affect later states via delayed, implicit interactions. We propose TurningPoint-GRPO (TP-GRPO), a GRPO framework that alleviates step-wise reward sparsity and explicitly models long-term effects within the denoising trajectory. TP-GRPO makes two key innovations: (i) it replaces outcome-based rewards with step-level incremental rewards, providing a dense, step-aware learning signal that better isolates each denoising action's "pure" effect, and (ii) it identifies turning points-steps that flip the local reward trend and make subsequent reward evolution consistent with the overall trajectory trend-and assigns these actions an aggregated long-term reward to capture their delayed impact. Turning points are detected solely via sign changes in incremental rewards, making TP-GRPO efficient and hyperparameter-free. Extensive experiments also demonstrate that TP-GRPO exploits reward signals more effectively and consistently improves generation. Demo code is available at https://github.com/YunzeTong/TurningPoint-GRPO.
- Abstract(参考訳): フローマッチングモデルにGRPOをデプロイすることは、テキスト・ツー・イメージ生成に有効であることが証明されている。
しかしながら、既存のパラダイムは、通常、各ステップの局所的な影響を区別することなく、すべての先行する演目に対して結果に基づく報酬を伝達する。
さらに、現在のグループワイドランキングは、マッチした時間ステップの軌跡を主に比較し、軌道内依存関係を無視している。
本稿では,段階的に報酬の分散を緩和し,認知軌道内の長期効果を明示的にモデル化するGRPOフレームワークであるTurningPoint-GRPO(TP-GRPO)を提案する。
TP-GRPOは2つの重要なイノベーションを生み出します。
i) 成果に基づく報酬を段階的なインクリメンタル報酬に置き換え、より密集したステップ対応学習信号を提供し、各行動の「純」効果をよりよく分離する。
(II)局所的な報酬傾向を反転させ、その後の報酬の進化を全体軌道の傾向と整合させる旋回ポイントステップを特定し、これらのアクションは、遅延した影響を捉えるために、集約された長期報酬を割り当てる。
ターンポイントはインクリメンタル報酬の符号変化によってのみ検出され、TP-GRPOは効率的かつハイパーパラメータフリーである。
また、TP-GRPOは報酬信号をより効果的に利用し、一貫して生成を改善することを示した。
デモコードはhttps://github.com/YunzeTong/TurningPoint-GRPOで公開されている。
関連論文リスト
- DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment [49.45064510462232]
テキスト・画像生成のためのGRPOベースのアプローチは、スパース報酬問題に悩まされる。
textbfDenseGRPOは、人間の好みと深い報酬を一致させる新しいフレームワークである。
論文 参考訳(メタデータ) (2026-01-28T03:39:05Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations [2.709826237514737]
報酬フィードバックの幅は、オンラインの深層強化学習において依然として難しい問題である。
Smooth Guidance (POSG) を用いたポリシー最適化手法を提案する。
4つのスパース・リワード環境におけるPOSGの制御性能と収束速度の顕著な優位性を示す。
論文 参考訳(メタデータ) (2023-12-30T07:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。