論文の概要: Deep Gaussian Process Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2511.18214v1
- Date: Sat, 22 Nov 2025 23:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.701098
- Title: Deep Gaussian Process Proximal Policy Optimization
- Title(参考訳): 深いガウス過程の近ポリシー最適化
- Authors: Matthijs van der Lende, Juan Cardenas-Cartagena,
- Abstract要約: 強化学習のための不確実性推定(RL)は、エージェントが安全な探索と効率的な学習のバランスをとる必要がある制御タスクにおいて重要な要素である。
本稿では,Deep Gaussian Process Proximal Policy Optimization (GPPO)を紹介する。
GPPOは、標準の高次元連続制御ベンチマークにおけるプロキシポリシー最適化に関する競争性能を維持しつつ、より安全で効果的な探索を知らせる確実性評価を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncertainty estimation for Reinforcement Learning (RL) is a critical component in control tasks where agents must balance safe exploration and efficient learning. While deep neural networks have enabled breakthroughs in RL, they often lack calibrated uncertainty estimates. We introduce Deep Gaussian Process Proximal Policy Optimization (GPPO), a scalable, model-free actor-critic algorithm that leverages Deep Gaussian Processes (DGPs) to approximate both the policy and value function. GPPO maintains competitive performance with respect to Proximal Policy Optimization on standard high-dimensional continuous control benchmarks while providing well-calibrated uncertainty estimates that can inform safer and more effective exploration.
- Abstract(参考訳): 強化学習のための不確実性推定(RL)は、エージェントが安全な探索と効率的な学習のバランスをとる必要がある制御タスクにおいて重要な要素である。
ディープニューラルネットワークは、RLのブレークスルーを可能にする一方で、キャリブレーションされた不確実性推定を欠いていることが多い。
本稿では,Deep Gaussian Process Proximal Policy Optimization (GPPO)を紹介する。
GPPOは、標準の高次元連続制御ベンチマークにおけるプロキシポリシー最適化に関する競争性能を維持しつつ、より安全で効果的な探索を知らせる確実性評価を提供する。
関連論文リスト
- StaQ it! Growing neural networks for Policy Mirror Descent [4.672862669694739]
強化学習(RL)では、理論と実践の両方において、正規化が一般的なツールとして現れている。
我々は,最後の$M$Q関数のみをメモリに保持するPMDのようなアルゴリズムを提案し,解析する。
有限で十分大きい$M$に対して、収束アルゴリズムを導出することができ、ポリシー更新にエラーは発生しない。
論文 参考訳(メタデータ) (2025-06-16T18:00:01Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Safe Reinforcement Learning using Finite-Horizon Gradient-based Estimation [25.552241659930445]
セーフ強化学習(Safe RL)の主な側面は、次のポリシーの制約条件を推定することである。
既存の推定方法は無限水平割引利得関数に依存している。
深部安全RLにおける有限水平非分散制約の第一推定法を提案する。
論文 参考訳(メタデータ) (2024-12-15T10:05:23Z) - Efficient Action Robust Reinforcement Learning with Probabilistic Policy
Execution Uncertainty [43.55450683502937]
本稿では,確率的政策実行の不確実性を考慮したアクションロバストなRLに着目した。
我々は,確率的政策実行の不確実性を伴う行動堅牢なMDPに対する最適政策の存在を確立する。
我々はまた、最適な後悔とサンプルの複雑さを最小限に抑えるAction Robust Reinforcement Learning with Certificates (ARRLC)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-07-15T00:26:51Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。