論文の概要: On the Tension Between Optimality and Adversarial Robustness in Policy Optimization
- arxiv url: http://arxiv.org/abs/2512.01228v1
- Date: Mon, 01 Dec 2025 03:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.659949
- Title: On the Tension Between Optimality and Adversarial Robustness in Policy Optimization
- Title(参考訳): 政策最適化における最適性と逆ロバスト性の間の緊張について
- Authors: Haoran Li, Jiayu Lv, Congying Han, Zicheng Zhang, Anqi Li, Yan Liu, Tiande Guo, Nan Jiang,
- Abstract要約: 本稿では、標準政策最適化(SPO)と対逆ロバスト政策最適化(ARPO)を比較して、理論と実践の間の重要なギャップを識別する。
我々は,SPOとARPOを一体化した双方向フレームワークであるBARPOを開発した。
- 参考スコア(独自算出の注目度): 40.62793922201162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving optimality and adversarial robustness in deep reinforcement learning has long been regarded as conflicting goals. Nonetheless, recent theoretical insights presented in CAR suggest a potential alignment, raising the important question of how to realize this in practice. This paper first identifies a key gap between theory and practice by comparing standard policy optimization (SPO) and adversarially robust policy optimization (ARPO). Although they share theoretical consistency, a fundamental tension between robustness and optimality arises in practical policy gradient methods. SPO tends toward convergence to vulnerable first-order stationary policies (FOSPs) with strong natural performance, whereas ARPO typically favors more robust FOSPs at the expense of reduced returns. Furthermore, we attribute this tradeoff to the reshaping effect of the strongest adversary in ARPO, which significantly complicates the global landscape by inducing deceptive sticky FOSPs. This improves robustness but makes navigation more challenging. To alleviate this, we develop the BARPO, a bilevel framework unifying SPO and ARPO by modulating adversary strength, thereby facilitating navigability while preserving global optima. Extensive empirical results demonstrate that BARPO consistently outperforms vanilla ARPO, providing a practical approach to reconcile theoretical and empirical performance.
- Abstract(参考訳): 深層強化学習における最適性と敵対的堅牢性を達成することは、長年、相反する目標とみなされてきた。
しかし、最近CARで発表された理論的な洞察は、それを実際にどのように実現するかという重要な疑問を提起している。
本稿では、まず、標準政策最適化(SPO)と対逆ロバスト政策最適化(ARPO)を比較し、理論と実践の鍵となるギャップを識別する。
理論的な一貫性は共有されるが、現実的な政策勾配法ではロバスト性と最適性の間に根本的な緊張が生じている。
SPOは脆弱な1次定常政策(FOSP)に収束する傾向があり、一方ARPOは低いリターンを犠牲にしてより堅牢なFOSPを好んでいる。
さらに,このトレードオフはARPOにおける最強の敵の転向効果に起因し,偽りの粘着性FOSPを誘導することにより世界的景観を著しく複雑化する。
これにより堅牢性が向上するが、ナビゲーションがより困難になる。
そこで本研究では,SPOとARPOを一体化した双方向フレームワークであるBARPOを開発した。
大規模な実験結果から、BARPOはバニラARPOより一貫して優れており、理論的および経験的性能を調整するための実践的なアプローチを提供する。
関連論文リスト
- Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。
GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。
本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文 参考訳(メタデータ) (2025-04-24T01:31:05Z) - Simple Policy Optimization [15.66748378216631]
信頼地域政策最適化(Trust Region Policy Optimization, TRPO)は、信頼領域内の保守的な更新を通じて単調な政策改善を保証することで知られている。
PPO(Proximal Policy Optimization)は、TRPOのアプローチを単純化し、効率を向上するが、理論的な堅牢性を犠牲にすることで、この問題に対処する。
どちらの方法の長所を組み合わせられるだろうか?
本稿では,制約のない新しい1次アルゴリズムであるSimple Policy Optimization (SPO)を紹介する。
論文 参考訳(メタデータ) (2024-01-29T10:17:54Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。