論文の概要: Reliable Policy Iteration: Performance Robustness Across Architecture and Environment Perturbations
- arxiv url: http://arxiv.org/abs/2512.12088v1
- Date: Fri, 12 Dec 2025 23:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.110318
- Title: Reliable Policy Iteration: Performance Robustness Across Architecture and Environment Perturbations
- Title(参考訳): 信頼性の高いポリシイテレーション: アーキテクチャと環境摂動におけるパフォーマンスのロバスト性
- Authors: S. R. Eshwar, Aniruddha Mukherjee, Kintan Saha, Krishna Agarwal, Gugan Thoppe, Aditya Gopalan, Gal Dalal,
- Abstract要約: 最近の研究で、我々は信頼性の高いポリシーイテレーション(RPI)を提案しました。
RPIはポリシーの単調な値推定特性を関数近似設定に復元する。
2つの古典的制御課題におけるRPIの実証的性能のロバスト性を評価する。
- 参考スコア(独自算出の注目度): 11.044907865485056
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In a recent work, we proposed Reliable Policy Iteration (RPI), that restores policy iteration's monotonicity-of-value-estimates property to the function approximation setting. Here, we assess the robustness of RPI's empirical performance on two classical control tasks -- CartPole and Inverted Pendulum -- under changes to neural network and environmental parameters. Relative to DQN, Double DQN, DDPG, TD3, and PPO, RPI reaches near-optimal performance early and sustains this policy as training proceeds. Because deep RL methods are often hampered by sample inefficiency, training instability, and hyperparameter sensitivity, our results highlight RPI's promise as a more reliable alternative.
- Abstract(参考訳): 最近の研究で、我々はポリシー反復の単調性-値推定特性を関数近似設定に復元する信頼性ポリシー反復(RPI)を提案している。
本稿では、ニューラルネットワークと環境パラメータの変更の下で、従来の2つの制御タスク(CartPoleとInverted Pendulum)におけるRPIの実証性能の堅牢性を評価する。
DQN、Double DQN、DDPG、TD3、PPOと比較して、RPIは早期に最適性能に達し、トレーニングが進むにつれてこのポリシーを維持できる。
深部RL法は, 試料の非効率性, トレーニング不安定性, ハイパーパラメータ感度によってしばしば阻害されるため, より信頼性の高い代替手段としてのRPIの期待が浮き彫りになる。
関連論文リスト
- Behaviour Policy Optimization: Provably Lower Variance Return Estimates for Off-Policy Reinforcement Learning [52.97053840476386]
我々は、よく設計された行動ポリシーを用いて、分散リターン推定を確実に低くするために、政治外のデータを収集できることを示します。
我々は、この重要な洞察を、政策評価と改善の両方がインターリーブされるオンライン強化学習環境に拡張する。
論文 参考訳(メタデータ) (2025-11-13T23:06:40Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Sampling Complexity of TD and PPO in RKHS [32.00317289826905]
機能空間の観点からPPO(Proximal Policy Optimization)を再考する。
我々の結果は、PPOを有限次元の仮定を超えた厳密な理論上の足場に置く。
論文 参考訳(メタデータ) (2025-09-29T16:19:19Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Self-supervised Representation Learning with Relative Predictive Coding [102.93854542031396]
Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。
RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。
ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2021-03-21T01:04:24Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。