論文の概要: Risk-Averse Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.05371v1
- Date: Wed, 10 Feb 2021 10:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 22:10:48.191360
- Title: Risk-Averse Offline Reinforcement Learning
- Title(参考訳): リスク回避型オフライン強化学習
- Authors: N\'uria Armengol Urp\'i, Sebastian Curi, Andreas Krause
- Abstract要約: 高度なアプリケーションでRL(Training Reinforcement Learning)エージェントを訓練することは、探索に伴うリスクのため、あまりにも禁じられている可能性がある。
O-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。
- 参考スコア(独自算出の注目度): 46.383648750385575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Reinforcement Learning (RL) agents in high-stakes applications might
be too prohibitive due to the risk associated to exploration. Thus, the agent
can only use data previously collected by safe policies. While previous work
considers optimizing the average performance using offline data, we focus on
optimizing a risk-averse criteria, namely the CVaR. In particular, we present
the Offline Risk-Averse Actor-Critic (O-RAAC), a model-free RL algorithm that
is able to learn risk-averse policies in a fully offline setting. We show that
O-RAAC learns policies with higher CVaR than risk-neutral approaches in
different robot control tasks. Furthermore, considering risk-averse criteria
guarantees distributional robustness of the average performance with respect to
particular distribution shifts. We demonstrate empirically that in the presence
of natural distribution-shifts, O-RAAC learns policies with good average
performance.
- Abstract(参考訳): 高スループットアプリケーションにおける強化学習(rl)エージェントのトレーニングは、探索に関わるリスクのため、あまりにも禁止されすぎます。
これにより、エージェントは、安全ポリシーによって収集されたデータのみを使用できる。
従来の作業では,オフラインデータを用いた平均性能の最適化が検討されているが,リスク回避基準,すなわちcvarの最適化に重点を置いている。
特にO-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。
我々は,O-RAACがロボット制御タスクにおけるリスクニュートラルアプローチよりもCVaRの高いポリシーを学習していることを示す。
さらに、リスク-逆基準を考慮すると、特定の分布シフトに対する平均性能の分布ロバスト性を保証する。
我々は,自然分布シフトが存在する場合,O-RAACは平均性能のよいポリシーを学ぶことを実証的に実証した。
関連論文リスト
- Stationary Policies are Optimal in Risk-averse Total-reward MDPs with EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。
以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-30T13:33:18Z) - Distributional Reinforcement Learning with Online Risk-awareness
Adaption [5.363478475460403]
オンラインリスク適応型分散RL(DRL-ORA)を新たに導入する。
DRL-ORAは、オンラインの総変動最小化問題を解くことにより、てんかんのリスクレベルを動的に選択する。
DRL-ORAは、固定リスクレベルまたは手動で決められたリスクレベルに依存する既存の手法よりも優れている、複数のタスクのクラスを示す。
論文 参考訳(メタデータ) (2023-10-08T14:32:23Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Improving Robustness via Risk Averse Distributional Reinforcement
Learning [13.467017642143581]
実環境ではなくシミュレーションでポリシーが訓練される場合、ロバスト性は重要である。
本研究では,シミュレーショントレーニングと実世界の実装のギャップを埋めるため,ロバストなポリシーを学習するためのリスク認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-01T20:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。