論文の概要: Risk-Sensitive Policy with Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.14743v1
- Date: Fri, 30 Dec 2022 14:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:37:10.382991
- Title: Risk-Sensitive Policy with Distributional Reinforcement Learning
- Title(参考訳): 分布強化学習によるリスク感応政策
- Authors: Thibaut Th\'eate and Damien Ernst
- Abstract要約: 本研究は、リスクに敏感なシーケンシャルな意思決定ポリシーを導出する、分布RLに基づく新しい手法を提案する。
リスクベースのユーティリティ関数$U$と名付けられ、任意の分布RLアルゴリズムによって自然に学習されたランダムリターン分布$Z$から抽出することができる。
これにより、リスク最小化と期待されるリターン最大化の間の完全な潜在的なトレードオフをまたがることができる。
- 参考スコア(独自算出の注目度): 4.523089386111081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical reinforcement learning (RL) techniques are generally concerned with
the design of decision-making policies driven by the maximisation of the
expected outcome. Nevertheless, this approach does not take into consideration
the potential risk associated with the actions taken, which may be critical in
certain applications. To address that issue, the present research work
introduces a novel methodology based on distributional RL to derive sequential
decision-making policies that are sensitive to the risk, the latter being
modelled by the tail of the return probability distribution. The core idea is
to replace the $Q$ function generally standing at the core of learning schemes
in RL by another function taking into account both the expected return and the
risk. Named the risk-based utility function $U$, it can be extracted from the
random return distribution $Z$ naturally learnt by any distributional RL
algorithm. This enables to span the complete potential trade-off between risk
minimisation and expected return maximisation, in contrast to fully risk-averse
methodologies. Fundamentally, this research yields a truly practical and
accessible solution for learning risk-sensitive policies with minimal
modification to the distributional RL algorithm, and with an emphasis on the
interpretability of the resulting decision-making process.
- Abstract(参考訳): 古典的強化学習(rl)手法は一般的に、期待される結果の最大化による意思決定政策の設計に関係している。
それでもこのアプローチは、実行されたアクションに関連する潜在的なリスクを考慮していない。
そこで本研究では,リスクに敏感な逐次的意思決定方針を導出する分布RLに基づく新たな手法を提案する。
中心となる考え方は、一般的にRLの学習スキームの中核に立っている$Q$関数を、期待されるリターンとリスクの両方を考慮して別の関数に置き換えることである。
リスクに基づくユーティリティ関数 $u$ は、任意の分散rlアルゴリズムによって自然に学習されるランダムリターン分布 $z$ から抽出することができる。
これにより、リスク最小化と期待リターンの最大化との完全なトレードオフを、リスク回避手法とは対照的にカバーすることができる。
基本的に、この研究は、分散rlアルゴリズムを最小限修正し、その結果の意思決定プロセスの解釈可能性を重視して、リスクに敏感なポリシーを学習するための、真に実用的な、アクセス可能なソリューションをもたらす。
関連論文リスト
- Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence [15.720824593964027]
リスクに敏感な強化学習(RL)は、高い評価のアプリケーションにおいて信頼性の高い性能を維持するために不可欠である。
本稿では、一般的なコヒーレントリスク対策を用いたリスク感応型DRLのポリシー勾配法を提案する。
また、カテゴリー分布ポリシー評価と軌道勾配推定に基づくカテゴリー分布ポリシー勾配アルゴリズム(CDPG)を設計する。
論文 参考訳(メタデータ) (2024-05-23T16:16:58Z) - Uncertainty-aware Distributional Offline Reinforcement Learning [26.34178581703107]
オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。
本研究では,不確実性と環境の両面に同時に対処する不確実性を考慮したオフラインRL法を提案する。
本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
論文 参考訳(メタデータ) (2024-03-26T12:28:04Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Risk-sensitive Markov Decision Process and Learning under General
Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。