論文の概要: Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2206.14666v1
- Date: Wed, 29 Jun 2022 14:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 23:06:59.057446
- Title: Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習のための条件付き動的リスク対策
- Authors: Anthony Coache, Sebastian Jaimungal, \'Alvaro Cartea
- Abstract要約: 我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a novel framework to solve risk-sensitive reinforcement learning
(RL) problems where the agent optimises time-consistent dynamic spectral risk
measures. Based on the notion of conditional elicitability, our methodology
constructs (strictly consistent) scoring functions that are used as penalizers
in the estimation procedure. Our contribution is threefold: we (i) devise an
efficient approach to estimate a class of dynamic spectral risk measures with
deep neural networks, (ii) prove that these dynamic spectral risk measures may
be approximated to any arbitrary accuracy using deep neural networks, and (iii)
develop a risk-sensitive actor-critic algorithm that uses full episodes and
does not require any additional nested transitions. We compare our conceptually
improved reinforcement learning algorithm with the nested simulation approach
and illustrate its performance in two settings: statistical arbitrage and
portfolio allocation on both simulated and real data.
- Abstract(参考訳): 本稿では,エージェントが時間一貫性のある動的スペクトルリスク対策を最適化する,リスク感応強化学習(rl)問題を解決するための新しい枠組みを提案する。
条件付きエリシタビリティの概念に基づき,評価手順においてペナライザとして使用される(厳密に一貫性のある)スコアリング関数を構築する。
私たちの貢献は3倍です
(i)ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラス推定のための効率的な手法の開発
(ii)深層ニューラルネットワークを用いて、これらの動的スペクトルリスク測度が任意の精度に近似可能であることを証明し、
(iii)完全エピソードを使用し、さらにネストした遷移を必要としないリスクに敏感なアクタ-クリティックアルゴリズムを開発する。
我々は,概念的に改良された強化学習アルゴリズムをネストしたシミュレーション手法と比較し,その性能を2つの設定で示す。
関連論文リスト
- Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Extreme Risk Mitigation in Reinforcement Learning using Extreme Value
Theory [10.288413564829579]
リスク認識の重要な側面は、破滅的な結果をもたらす可能性のある非常に稀なリスクイベント(リワード)をモデル化することである。
リスクを意識したRL手法は存在するが、リスク回避のレベルは状態-作用値関数の推定の精度に大きく依存している。
本研究では、状態-作用値関数分布によって予測される極端な値の予測を精査することに着目し、非常に稀で危険な事象に直面した場合のRLエージェントのレジリエンスを高めることを提案する。
論文 参考訳(メタデータ) (2023-08-24T18:23:59Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz
Dynamic Risk Measures [23.46659319363579]
EmphLipschitz動的リスク尺度に適用した2つのモデルベースアルゴリズムを提案する。
特に、私たちの上限は、アクションの数とエピソード数に最適な依存を示す。
論文 参考訳(メタデータ) (2023-06-04T16:24:19Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Risk-Sensitive Reinforcement Learning with Exponential Criteria [0.0]
我々は、堅牢な強化学習ポリシーを定義し、リスクに敏感な強化学習問題を定式化し、それらを近似する。
本稿では,近似更新を用いた乗算ベルマン方程式の解法に基づく新しいオンラインアクター・クリティカルアルゴリズムを提案する。
シミュレーション実験により,提案手法の実装,性能,ロバスト性を評価した。
論文 参考訳(メタデータ) (2022-12-18T04:44:38Z) - Reinforcement Learning with Dynamic Convex Risk Measures [0.0]
モデルレス強化学習(RL)を用いた時間一貫性リスク感応的最適化問題の解法を開発する。
我々は、時間一貫性のある動的プログラミング原則を用いて、特定のポリシーの価値を決定し、ポリシー勾配更新ルールを開発する。
論文 参考訳(メタデータ) (2021-12-26T16:41:05Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。