論文の概要: HAEPO: History-Aggregated Exploratory Policy Optimization
- arxiv url: http://arxiv.org/abs/2508.18884v1
- Date: Tue, 26 Aug 2025 09:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.792087
- Title: HAEPO: History-Aggregated Exploratory Policy Optimization
- Title(参考訳): HAEPO:履歴集約型探査政策最適化
- Authors: Gaurish Trivedi, Alakh Sharma, Kartikey Singh Bhandari, Dhruv Kumar, Pratik Narang, Jagat Sesh Challa,
- Abstract要約: 本稿では,ヒストリーアグリゲート探索政策最適化(HAEPO)を紹介する。
HAEPOは各軌道を対数確率の和に圧縮し、軌道にプラケット・リュックソフトマックスを適用する。
実証的には、HAEPOは急速に収束し、徹底的に探索し、真の報酬と密接に一致し、PPO、GRPO、DPOと同等以上の堅牢な学習行動を示す。
- 参考スコア(独自算出の注目度): 4.782714372521615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration is essential in modern learning, from reinforcement learning environments with small neural policies to large language models (LLMs). Existing work, such as DPO, leverages full sequence log-likelihoods to capture an entire trajectory of the model's decisions, while methods like GRPO aggregate per-token ratios into a trajectory-level update. However, both often limit exploration on long-horizon tasks. We introduce History-Aggregated Exploratory Policy Optimization (HAEPO), a history-aware exploratory loss to combat these shortcomings. HAEPO compresses each trajectory into the sum of its logarithmic probabilities (a cumulative logarithmic likelihood), and applies a Plackett-Luce softmax across trajectories to obtain normalized weights proportional to their returns, thus encouraging broader exploration. We add entropy regularization to stabilize the aggressive updates to prevent premature collapse and a soft KL penalty relative to a frozen copy of the previous (reference) policy. Empirically, HAEPO converges fast, explores thoroughly, aligns closely with true rewards, and demonstrates robust learning behavior better or at par with PPO, GRPO, and DPO across diverse tasks. Thus, HAEPO provides a stable and interpretable framework by explicitly leveraging full-trajectory history while balancing exploration and stability.
- Abstract(参考訳): 探索は、小さなニューラルポリシーを持つ強化学習環境から、大きな言語モデル(LLM)まで、現代的な学習において不可欠である。
DPOのような既存の作業は、完全なシーケンスログライクフッドを活用して、モデル決定の全軌道をキャプチャし、GRPOのようなメソッドはトーケン比をトラジェクトリレベルの更新に集約する。
しかし、どちらも長い水平課題の探索を制限していることが多い。
本稿では,これらの問題点に対処するため,歴史対応型探索政策最適化(HAEPO)を導入する。
HAEPO は各軌道を対数確率の和に圧縮し(累積対数確率)、軌道に対してプラケット・リュックソフトマックスを適用してそれらの回帰に比例した正規化重量を得る。
攻撃的な更新を安定させるためにエントロピー正則化を追加し、以前の(参照)ポリシーの凍結コピーに対する早期崩壊やソフトKLペナルティを防止する。
実証的には、HAEPOは急速に収束し、徹底的に探索し、真の報酬と密接に一致し、多岐にわたるPPO、GRPO、DPOに匹敵する堅牢な学習行動を示す。
したがって、HAEPOは、探索と安定性のバランスを保ちながら、完全な軌道履歴を明示的に活用することで、安定かつ解釈可能なフレームワークを提供する。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization [40.41228010377401]
本稿では、政治外の知識と政治上のRLの安定性を両立させるためのリフレージング・ポリシー・オプティマイズ(RePO)を提案する。
RePOは、独自のスタイリスティックでパラメトリックな分布に適合する軌跡に、政治外の知識を言い換える。
いくつかのベンチマークの実験では、RePOがハードサンプルの利用を改善し、既存のベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2026-02-11T13:02:40Z) - DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。
近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。
DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T17:07:42Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - SOUP: Token-level Single-sample Mix-policy Reinforcement Learning for Large Language Models [67.41779761651924]
SOUPは、トークンレベルで個々のサンプル内でオフとオンの学習を統合するフレームワークである。
標準のオン・ポリティクス・トレーニングと既存のオフ・ポリティクス・エクステンションを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-29T09:56:15Z) - Distribution-Centric Policy Optimization Dominates Exploration-Exploitation Trade-off [34.80019950191864]
我々は、強化学習のためのtextbfdistribution中心の視点を導入する。
本稿では,分布レベルの正規化としてエントロピー規制を再構成する分散中心政策最適化(DCPO)を提案する。
全体として、DCPOはサンプルレベルの原則を分散レベルの原則に置き換え、理論的に基礎とフレキシブルなフレームワークを提供し、EEのトレードオフを強化します。
論文 参考訳(メタデータ) (2026-01-19T05:20:46Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck [20.113524065146674]
イテレーティブ・インフォメーション・ボトルネック(IIB-LPO)は、トークンの統計的摂動から推論軌道のトポロジカル分岐へと探索を移す新しいアプローチである。
IIB-LPOは最先端のパフォーマンスを達成し、従来の手法を最大5.3%の精度と7.4%の多様性で上回っている。
論文 参考訳(メタデータ) (2026-01-09T15:46:40Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions [0.5416466085090772]
emphQuantile Reward Policy Optimization (QRPO)を導入する。
QRPO は KL-正則化 RL 目的の閉形式解への回帰を可能にするために量子的報酬を使用する。
チャットとコーディングの評価において、一貫して最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-10T17:56:24Z) - GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning [34.25769740497309]
GenPOは、正確な拡散反転を利用して、可逆なアクションマッピングを構築する、生成ポリシー最適化フレームワークである。
GenPOは、大規模な並列化トレーニングと実世界のロボット展開の可能性を解き放ち、拡散ポリシーをオンプレミスのRLにうまく統合する最初の方法である。
論文 参考訳(メタデータ) (2025-05-24T15:57:07Z) - Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。
実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文 参考訳(メタデータ) (2024-11-12T07:09:44Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。