論文の概要: Overcoming Non-stationary Dynamics with Evidential Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2503.01468v2
- Date: Fri, 23 May 2025 13:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 15:51:02.856271
- Title: Overcoming Non-stationary Dynamics with Evidential Proximal Policy Optimization
- Title(参考訳): エビデンシャル・プロキシ・ポリシー最適化による非定常力学の克服
- Authors: Abdullah Akgül, Gulcin Baykal, Manuel Haußmann, Melih Kandemir,
- Abstract要約: 非定常環境の継続的な制御は、深層強化学習アルゴリズムの大きな課題である。
政治上の強化学習を、明白な批評家と実践することは、これらの特性の両方を提供することを示す。
得られたアルゴリズムは、政策評価と政策改善の段階において、明らかな不確実性の不可欠な役割のために、$textit Evidential Proximal Policy Optimization (EPPO)$と命名する。
- 参考スコア(独自算出の注目度): 11.642505299142956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous control of non-stationary environments is a major challenge for deep reinforcement learning algorithms. The time-dependency of the state transition dynamics aggravates the notorious stability problems of model-free deep actor-critic architectures. We posit that two properties will play a key role in overcoming non-stationarity in transition dynamics: (i) preserving the plasticity of the critic network, (ii) directed exploration for rapid adaptation to the changing dynamics. We show that performing on-policy reinforcement learning with an evidential critic provides both of these properties. The evidential design ensures a fast and sufficiently accurate approximation to the uncertainty around the state-value, which maintains the plasticity of the critic network by detecting the distributional shifts caused by the change in dynamics. The probabilistic critic also makes the actor training objective a random variable, enabling the use of directed exploration approaches as a by-product. We name the resulting algorithm as $\textit{ Evidential Proximal Policy Optimization (EPPO)}$ due to the integral role of evidential uncertainty quantification in both policy evaluation and policy improvement stages. Through experiments on non-stationary continuous control tasks, where the environment dynamics change at regular intervals, we demonstrate that our algorithm outperforms state-of-the-art on-policy reinforcement learning variants in both task-specific and overall return.
- Abstract(参考訳): 非定常環境の継続的な制御は、深層強化学習アルゴリズムの大きな課題である。
状態遷移の時間依存性は、モデルのないディープアクター批判的アーキテクチャの悪名高い安定性問題を悪化させる。
遷移力学における非定常性を克服する上で、2つの性質が重要な役割を果たすと仮定する。
一 批評家ネットワークの可塑性を維持すること。
(II)変化力学への迅速な適応をめざした探究
政治上の強化学習を、明白な批評家と実践することは、これらの特性の両方を提供することを示す。
明らかな設計により、状態値に関する不確実性に対する迅速かつ十分に正確な近似が保証され、ダイナミックスの変化による分布シフトを検出して、批評家ネットワークの可塑性を維持する。
確率論的批判はまた、アクターの訓練対象をランダムな変数とし、副産物として指向的な探索アプローチを使用できるようにする。
得られたアルゴリズムは、政策評価と政策改善の段階において、明らかな不確実性定量化の不可欠な役割から、$\textit{ Evidential Proximal Policy Optimization (EPPO)$と命名する。
環境動態が一定間隔で変化する非定常的連続制御タスクの実験を通じて、我々のアルゴリズムはタスク固有性と全体的な回帰の両方において、最先端のオンライン強化学習変異よりも優れていることを示す。
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Accelerating Proximal Policy Optimization Learning Using Task Prediction for Solving Environments with Delayed Rewards [8.455772877963792]
オフラインポリシとオンラインPPOポリシを組み合わせたハイブリッドポリシアーキテクチャと,TWTL(Time Window Temporal Logic)を用いた報酬形成機構の2つを導入する。
我々は,逆振り子と月面着陸機環境に関する広範囲な実験を通じて,我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-11-26T20:22:31Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Decoupling Value and Policy for Generalization in Reinforcement Learning [20.08992844616678]
我々は、最適なポリシーを学ぶよりも、価値関数を正確に見積もるためにより多くの情報が必要であると論じる。
IDAAC(Invariant Decoupled Advantage Actor-Critic)の2つのアプローチを提案します。
IDAACは、目に見えない環境に良い一般化を示し、Procgenベンチマークで新しい最先端を実現し、イントラクタでDeepMind Controlタスクで一般的なメソッドを上回ります。
論文 参考訳(メタデータ) (2021-02-20T12:40:11Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z) - Neural Proximal/Trust Region Policy Optimization Attains Globally
Optimal Policy [119.12515258771302]
オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。
我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
論文 参考訳(メタデータ) (2019-06-25T03:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。