論文の概要: HPO: Hysteretic Policy Optimization for Stable and Efficient Training under Sparse-Reward Regime
- arxiv url: http://arxiv.org/abs/2605.30201v1
- Date: Thu, 28 May 2026 16:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.54209
- Title: HPO: Hysteretic Policy Optimization for Stable and Efficient Training under Sparse-Reward Regime
- Title(参考訳): HPO:スパルス・リワード・レジーム下における安定・効率的なトレーニングのためのヒステリックポリシー最適化
- Authors: Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Haozhe Zhang,
- Abstract要約: Hysteretic Policy Optimization (HPO)は、負のアドバンテージ更新の重みを減らす。
Adaptive HPOはバッチレベルのアドバンテージサイン統計に基づいてヒステリックウェイトを設定する。
TeleLogsでは、A-HPOが0.84で、SAPOを5%上回り、GSPOを11%上回り、GRPOを15%上回る。
- 参考スコア(独自算出の注目度): 7.472260601349898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate a narrow but common failure mode of GRPO-style reinforcement learning in the context of sparse verifiable rewards: early updates contain more responses with negative advantages than those with positive advantages, while response-level length normalization ties the magnitude of the update to the length of the output. We propose Hysteretic Policy Optimization (HPO), a minimal modification of GRPO that reduces the weight of negative-advantage updates and replaces per-response length normalization with mean-length normalization. We further introduce Adaptive HPO (A-HPO), which sets the hysteretic weight based on batch-level advantage-sign statistics, thereby removing the need for tuning a fixed hysteretic weight. In our TeleLogs and Countdown experiments, A-HPO improves the reward per update compared to GRPO, with the largest gains in early sparse reward regimes. On TeleLogs, A-HPO achieves a final reward of 0.84, outperforming SAPO by 5%, GSPO by 11%, and GRPO by 15%, while maintaining a comparable response-length. On Countdown, A-HPO achieves the largest gains in initial and most difficult configurations across 1.5B-7B models. Ablation studies on the hysteretic weight show that the gains of A-HPO come from better balancing the contributions of positive and negative advantages compared to positive-only or fully symmetric updates.
- Abstract(参考訳): 初期更新は、正の利点を持つものよりも負の利点を持つものが多く、応答レベル長正規化は、出力の長さに対する更新の規模に結びついている。
負のアドバンテージ更新の重みを減らし,応答長ごとの正規化を平均長正規化に置き換える,GRPOの最小限の修正であるHysteretic Policy Optimization (HPO)を提案する。
さらに、バッチレベルの利点符号統計に基づいてヒステリックウェイトを設定するアダプティブHPO(A-HPO)を導入し、固定ヒステリックウェイトを調整する必要をなくした。
TeleLogsとCountdownの実験では、A-HPOはGRPOと比較してアップデート当たりの報酬を改善しています。
TeleLogsでは、A-HPOが0.84で、SAPOを5%上回り、GSPOを11%上回り、GRPOを15%上回り、同等の応答長を維持している。
Countdownでは、A-HPOは1.5B-7Bモデルで初期および最も難しい構成で最大のゲインを達成している。
ヒステリックウェイトに関するアブレーション研究は、A-HPOの利得は、正にのみあるいは完全に対称な更新に比べて、正と負の利点の寄与のバランスが良くなることを示している。
関連論文リスト
- BPPO: Binary Prefix Policy Optimization for Efficient GRPO-Style Reasoning RL with Concise Responses [48.550535291129584]
GRPO型推論RLにおいて,全ての完了が等しく有用な更新信号を提供するか否かを検討する。
我々の勾配類似性分析は、同じプロンプト群において、同じクラス補完がしばしば非常に類似した更新方向を誘導することを示している。
本稿では,最短の修正完了と最短の修正完了をコンパクトな更新単位として利用するBPPO(Binary Prefix Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-05-27T06:34:17Z) - Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients [19.444308344942716]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力を高める主要なパラダイムとなる。
オンラインのポジティブロールアウトを通じてのみ学習を行うことができる新しいRLVRフレームワークであるPOPOを提案する。
論文 参考訳(メタデータ) (2026-05-07T17:55:21Z) - Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing [79.88256756334327]
自己蒸留政策最適化(SDPO)は、より密集したロジットレベルの監視を提供することによってこの問題に対処する。
サンプル制御ポリシー最適化(SRPO)を提案する。
SRPOは、試料をGRPOの報酬整合強化に向け、サンプルをSDPOの目標ロジットレベルの補正に向ける。
論文 参考訳(メタデータ) (2026-04-02T17:29:18Z) - Geometric-Mean Policy Optimization [117.05113769757172]
グループ相対政策最適化(GRPO)は,大規模言語モデルの推論能力を大幅に向上させた。
GRPOは、不利な重要度重み付けされた報酬を持つトークンに直面すると、不安定なポリシー更新に悩まされる。
本稿では,GRPOの安定性を向上させるために,トークン報酬の出力を抑えることにより,GMPO(Geometric-Mean Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。
実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文 参考訳(メタデータ) (2024-11-12T07:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。