Fugu-MT 論文翻訳(概要): Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz Dynamic Risk Measures

論文の概要: Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz Dynamic Risk Measures

arxiv url: http://arxiv.org/abs/2306.02399v1
Date: Sun, 4 Jun 2023 16:24:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 18:07:15.670227
Title: Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz Dynamic Risk Measures
Title（参考訳）: リプシッツ動的リスク対策によるリスク感受性強化学習のためのレグレト境界
Authors: Hao Liang, Zhi-quan Luo
Abstract要約: EmphLipschitz動的リスク尺度に適用した2つのモデルベースアルゴリズムを提案する。特に、私たちの上限は、アクションの数とエピソード数に最適な依存を示す。
参考スコア（独自算出の注目度）: 23.46659319363579
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study finite episodic Markov decision processes incorporating dynamic risk measures to capture risk sensitivity. To this end, we present two model-based algorithms applied to \emph{Lipschitz} dynamic risk measures, a wide range of risk measures that subsumes spectral risk measure, optimized certainty equivalent, distortion risk measures among others. We establish both regret upper bounds and lower bounds. Notably, our upper bounds demonstrate optimal dependencies on the number of actions and episodes, while reflecting the inherent trade-off between risk sensitivity and sample complexity. Additionally, we substantiate our theoretical results through numerical experiments.
Abstract（参考訳）: リスクセンシティブを捉えるために動的リスク対策を組み込んだ有限エピソジックマルコフ決定過程について検討する。そこで,本稿では,スペクトルリスク測度,最適化された確実性等価性,歪みリスク測度などを推定する,広範囲のリスク尺度である \emph{lipschitz} 動的リスク測度に適用する2つのモデルに基づくアルゴリズムを提案する。我々は上界と下界の両方を後悔する。特に、私たちの上限は、リスク感受性とサンプルの複雑さのトレードオフを反映しつつ、アクションの数とエピソード数に最適な依存を示す。さらに,理論結果を数値実験により検証する。

関連論文リスト

Risk-sensitive Actor-Critic with Static Spectral Risk Measures for Online and Offline Reinforcement Learning [4.8342038441006805]
静的スペクトルリスク対策(SRM)の最適化のための新しい枠組みを提案する。我々のアルゴリズムは、さまざまなドメインにわたるオンラインとオフラインの両方の環境において、既存のリスクに敏感な手法より一貫して優れています。
論文参考訳（メタデータ） (2025-07-05T04:41:54Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.67349734180445]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文参考訳（メタデータ） (2023-08-01T02:07:47Z)
Risk-Averse Reinforcement Learning via Dynamic Time-Consistent Risk Measures [10.221369785560785]
本稿では,マルコフ決定過程(MDP)における報酬列の動的リスクを最大化する問題について考察する。予測と条件付きリスクリスク(CVaR)の凸結合を特別な一段階の条件付きリスク尺度として用いて、我々は、リスク回避型MDPを、強化されたアクション空間を持つリスク中立型として再構成し、即時報酬の操作を行う。本研究は,リスク・アバース・セッティングが分散を低減し,その結果のロバスト性を高めることを示唆するものである。
論文参考訳（メタデータ） (2023-01-14T21:43:18Z)
RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文参考訳（メタデータ） (2022-09-09T00:34:58Z)
Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文参考訳（メタデータ） (2022-07-02T05:01:19Z)
Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文参考訳（メタデータ） (2022-06-29T14:11:15Z)
A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文参考訳（メタデータ） (2022-05-12T02:20:34Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文参考訳（メタデータ） (2020-11-16T15:53:22Z)
Entropic Risk Constrained Soft-Robust Policy Optimization [12.362670630646805]
モデル不確実性によって引き起こされるリスクを定量化し、管理することは、高リスク領域において重要である。本稿では,モデルの不確実性に対するリスクに反する,エントロピー的リスク制約付きポリシー勾配とアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-20T23:48:28Z)
Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文参考訳（メタデータ） (2020-06-15T05:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。