論文の概要: Uncertainty-Aware Policy Optimization: A Robust, Adaptive Trust Region
Approach
- arxiv url: http://arxiv.org/abs/2012.10791v1
- Date: Sat, 19 Dec 2020 21:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 11:17:19.957270
- Title: Uncertainty-Aware Policy Optimization: A Robust, Adaptive Trust Region
Approach
- Title(参考訳): 不確実性を考慮した政策最適化:ロバストで適応的な信頼領域アプローチ
- Authors: James Queeney, Ioannis Ch. Paschalidis, Christos G. Cassandras
- Abstract要約: データが乏しい時でも安定した性能を発揮できるよう、深いポリシー最適化手法を提案します。
得られたアルゴリズムである不確実性認識地域政策最適化は、学習プロセスを通じて存在する不確実性レベルに適応する堅牢なポリシー更新を生成する。
- 参考スコア(独自算出の注目度): 8.325359814939517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order for reinforcement learning techniques to be useful in real-world
decision making processes, they must be able to produce robust performance from
limited data. Deep policy optimization methods have achieved impressive results
on complex tasks, but their real-world adoption remains limited because they
often require significant amounts of data to succeed. When combined with small
sample sizes, these methods can result in unstable learning due to their
reliance on high-dimensional sample-based estimates. In this work, we develop
techniques to control the uncertainty introduced by these estimates. We
leverage these techniques to propose a deep policy optimization approach
designed to produce stable performance even when data is scarce. The resulting
algorithm, Uncertainty-Aware Trust Region Policy Optimization, generates robust
policy updates that adapt to the level of uncertainty present throughout the
learning process.
- Abstract(参考訳): 強化学習技術が実世界の意思決定プロセスで有用になるためには、限られたデータから堅牢なパフォーマンスを生み出す必要がある。
深いポリシー最適化手法は複雑なタスクで素晴らしい結果を得ていますが、実際の採用は、成功するためにかなりの量のデータを必要とするため、限られています。
小さなサンプルサイズと組み合わせると、これらの手法は高次元のサンプルベース推定に依存するため不安定な学習をもたらす。
本研究では,これらの推定値がもたらす不確実性を制御する手法を開発する。
我々は,これらの手法を活用して,データが不足しても安定したパフォーマンスを実現するように設計された,深いポリシー最適化手法を提案する。
得られたアルゴリズムである不確実性認識地域政策最適化は、学習プロセスを通じて存在する不確実性レベルに適応する堅牢なポリシー更新を生成する。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Offline Policy Evaluation and Optimization under Confounding [35.778917456294046]
構築されたMDPのオフライン政策評価の状況について概説する。
一貫性のある値推定が達成不可能な設定を特徴付ける。
オフライン政策改善のための新しいアルゴリズムを提案し、局所収束保証を証明する。
論文 参考訳(メタデータ) (2022-11-29T20:45:08Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。