論文の概要: PPO-BR: Dual-Signal Entropy-Reward Adaptation for Trust Region Policy Optimization
- arxiv url: http://arxiv.org/abs/2505.17714v1
- Date: Fri, 23 May 2025 10:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.99772
- Title: PPO-BR: Dual-Signal Entropy-Reward Adaptation for Trust Region Policy Optimization
- Title(参考訳): PPO-BR:信頼地域政策最適化のためのデュアルシグナルエントロピー・リワード適応
- Authors: Ben Rahman,
- Abstract要約: PPO-BRは、新しい探索と収束信号を単一の信頼領域に融合することで、パラダイム適応RLを確立する。
この研究は、位相認識学習における重要なギャップを埋め、ロボット手術のような安全クリティカルなシステムへの現実世界の展開を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite Proximal Policy Optimization (PPO) dominating policy gradient methods -- from robotic control to game AI -- its static trust region forces a brittle trade-off: aggressive clipping stifles early exploration, while late-stage updates destabilize convergence. PPO-BR establishes a new paradigm in adaptive RL by fusing exploration and convergence signals into a single bounded trust region -- a theoretically grounded innovation that outperforms five SOTA baselines with less than 2% overhead. This work bridges a critical gap in phase-aware learning, enabling real-world deployment in safety-critical systems like robotic surgery within a single adaptive mechanism. PPO-BR achieves 29.1% faster convergence by combining: (1) entropy-driven expansion (epsilon up) for exploration in high-uncertainty states, and (2) reward-guided contraction (epsilon down) for convergence stability. On six diverse benchmarks (MuJoCo, Atari, sparse-reward), PPO-BR achieves 29.1% faster convergence (p < 0.001), 2.3x lower reward variance than PPO, and less than 1.8% runtime overhead with only five lines of code change. PPO-BR's simplicity and theoretical guarantees make it ready-to-deploy in safety-critical domains -- from surgical robotics to autonomous drones. In contrast to recent methods such as Group Relative Policy Optimization (GRPO), PPO-BR offers a unified entropy-reward mechanism applicable to both language models and general reinforcement learning environments.
- Abstract(参考訳): ロボット制御からゲームAIに至るまで、PPO(Proximal Policy Optimization)がポリシー勾配メソッドを支配しているにも関わらず、静的信頼領域は不安定なトレードオフを強いられている。
PPO-BRは、探索と収束信号を単一の有界信頼領域に融合させることで、適応RLの新しいパラダイムを確立します。
この研究は、位相認識学習における重要なギャップを埋め、単一の適応メカニズム内でロボット手術のような安全クリティカルなシステムへの現実的な展開を可能にする。
PPO-BRは、(1)不確実な状態での探索のためのエントロピー駆動の膨張(エプシロンアップ)と(2)収束安定性のための報酬誘導収縮(エプシロンダウン)を組み合わせることで、29.1%の高速収束を達成する。
6つの多様なベンチマーク (MuJoCo, Atari, sparse-reward) において、PPO-BRは29.1%の収束(p < 0.001)、PPOよりも2.3倍低い報酬分散、わずか5行のコード変更で1.8%以下のランタイムオーバーヘッドを達成した。
PPO-BRのシンプルさと理論的保証により、外科ロボティクスから自律ドローンまで、安全上重要な分野に配備する準備が整った。
グループ相対政策最適化(GRPO)のような最近の手法とは対照的に、PPO-BRは言語モデルと一般的な強化学習環境の両方に適用可能な統一エントロピー・リワード機構を提供する。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - ETR: Outcome-Guided Elastic Trust Regions for Policy Optimization [6.716883192613149]
textbfElastic textbfTrust textbfETRを提案する。
ETRはGRPOを一貫して上回り、より優れた精度を実現し、政策エントロピー劣化を効果的に緩和する。
論文 参考訳(メタデータ) (2026-01-07T09:19:53Z) - Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning [45.51804571136028]
強化学習(RL)は、大規模言語モデル(LLM)における推論の強化の中心となっている。
Slow-Fast Policy Optimization (SFPO)は,各ステップを3段階に分解することで,これらの制限に対処する,シンプルかつ効率的なフレームワークである。
SFPOは安定性を継続的に改善し、ロールアウトを低減し、推論RLトレーニングの収束を加速する。
論文 参考訳(メタデータ) (2025-10-05T07:22:54Z) - Multi-Agent Trust Region Policy Optimisation: A Joint Constraint Approach [17.48210470289556]
Heterogeneous-Agent Trust Region Policy Optimization (HATRPO) は、Kulback-Leibler (KL) の分散を用いて、訓練の安定化を図る。
各エージェントを同じKL閾値に割り当てると、特に不均一な設定において、遅くて局所的に最適な更新につながる可能性がある。
エージェント間のKL分散しきい値の割当には,グローバルなKL制約下でのしきい値割り当てを最適化するKKT法であるHATRPO-Wと,改善に基づくエージェントの優先順位付けを行うgreedyアルゴリズムであるHATRPO-Gの2つの方法を提案する。
論文 参考訳(メタデータ) (2025-08-14T04:48:46Z) - PPO in the Fisher-Rao geometry [0.0]
PPO(Proximal Policy Optimization)は、強化学習のアルゴリズムとして広く採用されている。
その人気にもかかわらず、PPOは政策改善と収束に関する正式な理論的保証を欠いている。
本稿では,フィッシャー・ラオ幾何におけるより強いサロゲートを導出し,新しい変種であるフィッシャー・ラオPPO(FR-PPO)を導出する。
論文 参考訳(メタデータ) (2025-06-04T09:23:27Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Simple Policy Optimization [15.66748378216631]
信頼地域政策最適化(Trust Region Policy Optimization, TRPO)は、信頼領域内の保守的な更新を通じて単調な政策改善を保証することで知られている。
PPO(Proximal Policy Optimization)は、TRPOのアプローチを単純化し、効率を向上するが、理論的な堅牢性を犠牲にすることで、この問題に対処する。
どちらの方法の長所を組み合わせられるだろうか?
本稿では,制約のない新しい1次アルゴリズムであるSimple Policy Optimization (SPO)を紹介する。
論文 参考訳(メタデータ) (2024-01-29T10:17:54Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z) - Provably Convergent Policy Optimization via Metric-aware Trust Region
Methods [21.950484108431944]
信頼領域法は、強化学習における政策最適化の安定化に広く用いられている。
我々は、より柔軟なメトリクスを活用し、ワッサーシュタインとシンクホーンの信頼領域によるポリシー最適化の2つの自然な拡張について検討する。
WPOは単調な性能向上を保証し、SPOはエントロピー正則化器が減少するにつれてWPOに確実に収束することを示す。
論文 参考訳(メタデータ) (2023-06-25T05:41:38Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。