論文の概要: Improving Plasticity in Non-stationary Reinforcement Learning with Evidential Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2503.01468v1
- Date: Mon, 03 Mar 2025 12:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:38.431592
- Title: Improving Plasticity in Non-stationary Reinforcement Learning with Evidential Proximal Policy Optimization
- Title(参考訳): 積極的ポリシー最適化による非定常強化学習における塑性向上
- Authors: Abdullah Akgül, Gulcin Baykal, Manuel Haußmann, Melih Kandemir,
- Abstract要約: 以前の研究はそれを示している。
ネットワークは維持に苦労しています
環境が変化するにつれて つながりが変化します
時間が経つにつれ
本研究は、強化学習の応用において、この明らかな学習の第一の要因を提示する。
- 参考スコア(独自算出の注目度): 11.642505299142956
- License:
- Abstract: On-policy reinforcement learning algorithms use the most recently learned policy to interact with the environment and update it using the latest gathered trajectories, making them well-suited for adapting to non-stationary environments where dynamics change over time. However, previous studies show that they struggle to maintain plasticity$\unicode{x2013}$the ability of neural networks to adjust their synaptic connections$\unicode{x2013}$with overfitting identified as the primary cause. To address this, we present the first application of evidential learning in an on-policy reinforcement learning setting: $\textit{Evidential Proximal Policy Optimization (EPPO)}$. EPPO incorporates all sources of error in the critic network's approximation$\unicode{x2013}$i.e., the baseline function in advantage calculation$\unicode{x2013}$by modeling the epistemic and aleatoric uncertainty contributions to the approximation's total variance. We achieve this by using an evidential neural network, which serves as a regularizer to prevent overfitting. The resulting probabilistic interpretation of the advantage function enables optimistic exploration, thus maintaining the plasticity. Through experiments on non-stationary continuous control tasks, where the environment dynamics change at regular intervals, we demonstrate that EPPO outperforms state-of-the-art on-policy reinforcement learning variants in both task-specific and overall return.
- Abstract(参考訳): オンライン強化学習アルゴリズムは、最近学んだポリシーを使って環境と対話し、最新の収集された軌跡を使ってそれを更新する。
しかし、以前の研究では、プラスティック性を維持するのに苦労していることが示されており、ニューラルネットワークがシナプス接続を調整する能力は、主な原因として過度に適合している。
これを解決するために,実証的な学習をオンライン強化学習環境に初めて適用した: $\textit{Evidential Proximal Policy Optimization (EPPO)}$。
EPPOは、批評家ネットワークの近似$\unicode{x2013}$i.e., the baseline function in advantage calculation$\unicode{x2013}$by modeling the epistemic and aleatoric uncertainty contributions to the approximation's total variance。
オーバーフィッティングを防ぐためのレギュレータとして機能する、明らかなニューラルネットワークを使用することで、これを実現する。
その結果、利点関数の確率論的解釈により、楽観的な探索が可能となり、可塑性が維持される。
環境動態が一定間隔で変化する非定常連続制御タスクの実験を通じて、EPPOはタスク固有および全体的な回帰の両方において、最先端のオンライン強化学習変異よりも優れていることを示す。
関連論文リスト
- Accelerating Proximal Policy Optimization Learning Using Task Prediction for Solving Environments with Delayed Rewards [8.455772877963792]
オフラインポリシとオンラインPPOポリシを組み合わせたハイブリッドポリシアーキテクチャと,TWTL(Time Window Temporal Logic)を用いた報酬形成機構の2つを導入する。
我々は,逆振り子と月面着陸機環境に関する広範囲な実験を通じて,我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-11-26T20:22:31Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Decoupling Value and Policy for Generalization in Reinforcement Learning [20.08992844616678]
我々は、最適なポリシーを学ぶよりも、価値関数を正確に見積もるためにより多くの情報が必要であると論じる。
IDAAC(Invariant Decoupled Advantage Actor-Critic)の2つのアプローチを提案します。
IDAACは、目に見えない環境に良い一般化を示し、Procgenベンチマークで新しい最先端を実現し、イントラクタでDeepMind Controlタスクで一般的なメソッドを上回ります。
論文 参考訳(メタデータ) (2021-02-20T12:40:11Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z) - Neural Proximal/Trust Region Policy Optimization Attains Globally
Optimal Policy [119.12515258771302]
オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。
我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
論文 参考訳(メタデータ) (2019-06-25T03:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。