論文の概要: Distributional Actor-Critic Ensemble for Uncertainty-Aware Continuous
Control
- arxiv url: http://arxiv.org/abs/2207.13730v1
- Date: Wed, 27 Jul 2022 18:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 13:02:35.706684
- Title: Distributional Actor-Critic Ensemble for Uncertainty-Aware Continuous
Control
- Title(参考訳): 不確実性を考慮した連続制御のための分布的アクター-クリティックアンサンブル
- Authors: Takuya Kanazawa, Haiyan Wang, Chetan Gupta
- Abstract要約: 不確実性定量化は、現実世界のアプリケーションにおける機械学習における中心的な課題の1つである。
不確かさの解消と評価を同時に行うことは、エージェントの最終的なパフォーマンスを改善するチャンスである。
連続制御タスクに対する不確実性を考慮した強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 13.767812547998735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty quantification is one of the central challenges for machine
learning in real-world applications. In reinforcement learning, an agent
confronts two kinds of uncertainty, called epistemic uncertainty and aleatoric
uncertainty. Disentangling and evaluating these uncertainties simultaneously
stands a chance of improving the agent's final performance, accelerating
training, and facilitating quality assurance after deployment. In this work, we
propose an uncertainty-aware reinforcement learning algorithm for continuous
control tasks that extends the Deep Deterministic Policy Gradient algorithm
(DDPG). It exploits epistemic uncertainty to accelerate exploration and
aleatoric uncertainty to learn a risk-sensitive policy. We conduct numerical
experiments showing that our variant of DDPG outperforms vanilla DDPG without
uncertainty estimation in benchmark tasks on robotic control and power-grid
optimization.
- Abstract(参考訳): 不確かさの定量化は、現実世界のアプリケーションにおける機械学習の中心的な課題の1つだ。
強化学習では、エージェントは認識的不確実性とアレエータ的不確実性と呼ばれる2種類の不確実性に直面する。
これらの不確実性の解消と評価は、エージェントの最終性能の向上、トレーニングの促進、デプロイメント後の品質保証の促進の機会でもある。
本研究では,ddpg(deep deterministic policy gradient algorithm)を拡張した連続制御タスクのための不確実性対応強化学習アルゴリズムを提案する。
認識的不確実性を利用して探索を加速し、原因的不確実性を利用してリスクに敏感な政策を学ぶ。
我々は,ロボット制御と電力グリッド最適化のベンチマークタスクにおいて,我々のDDPGの変形が不確実性評価を伴わずにバニラDDPGより優れていることを示す数値実験を行った。
関連論文リスト
- Predicting Safety Misbehaviours in Autonomous Driving Systems using Uncertainty Quantification [8.213390074932132]
本稿では, 深層学習領域と異なる不確実性定量化手法を, 安全クリティカルな誤動作の予測試験のために評価する。
車両が実施する不確実性スコアは、高い不確実性スコアがサポートされていない実行条件を示すという直感に従って計算する。
本研究では,MC-DropoutとDeep Ensemblesの2つの不確実な定量化手法,すなわち,誤動作回避のための有効性と計算オーバーヘッドの評価を行った。
論文 参考訳(メタデータ) (2024-04-29T10:28:28Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Wasserstein Actor-Critic: Directed Exploration via Optimism for
Continuous-Actions Control [41.7453231409493]
Wasserstein Actor-Critic (WAC) は、Wasserstein Q-Learning (WQL) citepwqlにインスパイアされたアクター批判アーキテクチャである。
WACは、Q値の推定値の上限を最適化してポリシー学習プロセスを導くことによって、原則的な方法で探索を実施する。
論文 参考訳(メタデータ) (2023-03-04T10:52:20Z) - Bayesian autoencoders with uncertainty quantification: Towards
trustworthy anomaly detection [78.24964622317634]
本研究では, ベイズオートエンコーダ (BAEs) の定式化により, 全体の異常不確かさを定量化する。
不確実性の質を評価するために,不確実性の予測を拒否するオプションを追加して,異常を分類する作業を検討する。
本実験は,BAEと総異常不確かさが,ベンチマークデータセットと製造用実データセットのセットに与える影響を実証するものである。
論文 参考訳(メタデータ) (2022-02-25T12:20:04Z) - Risk Sensitive Model-Based Reinforcement Learning using Uncertainty
Guided Planning [0.0]
本稿では,モデルに基づく強化学習アルゴリズムでリスク感度を向上する。
本研究では,高分散状態予測をもたらす行動系列を解析する不確実性誘導型クロスエントロピー法計画を提案する。
実験では、エージェントが計画中の状態空間の不確実な領域を識別し、エージェントを高い信頼領域内に保持する行動をとる能力を示す。
論文 参考訳(メタデータ) (2021-11-09T07:28:00Z) - Learning to Be Cautious [71.9871661858886]
強化学習の分野における重要な課題は、新しい状況下で慎重に行動するエージェントを開発することである。
注意深い行動がますます不要になるタスクのシーケンスと、システムが注意深いことを実証するアルゴリズムを提示する。
論文 参考訳(メタデータ) (2021-10-29T16:52:45Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z) - Safe Learning of Uncertain Environments for Nonlinear Control-Affine
Systems [10.918870296899245]
未知の添加不確実性を受ける非線形制御アフィン系における安全な学習の問題を検討する。
我々はガウス信号として不確実性をモデル化し、状態測定を用いて平均と共分散境界を学習する。
学習と制御が同時に行われる間、我々は任意に大きな確率で状態が安全なセットにとどまることを保証することができることを示しています。
論文 参考訳(メタデータ) (2021-03-02T01:58:02Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。