Fugu-MT 論文翻訳(概要): Catastrophic-risk-aware reinforcement learning with extreme-value-theory-based policy gradients

論文の概要: Catastrophic-risk-aware reinforcement learning with extreme-value-theory-based policy gradients

arxiv url: http://arxiv.org/abs/2406.15612v2
Date: Fri, 28 Jun 2024 14:23:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 19:01:16.329132
Title: Catastrophic-risk-aware reinforcement learning with extreme-value-theory-based policy gradients
Title（参考訳）: 極値理論に基づく政策勾配を用いたカタストロフィックリスク対応強化学習
Authors: Parisa Davar, Frédéric Godin, Jose Garrido,
Abstract要約: 本稿では, 逐次意思決定プロセスにおける破滅的リスク軽減の問題に取り組む。 POTPGと呼ばれるポリシー勾配アルゴリズムが開発されている。金融リスク管理への応用について紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper tackles the problem of mitigating catastrophic risk (which is risk with very low frequency but very high severity) in the context of a sequential decision making process. This problem is particularly challenging due to the scarcity of observations in the far tail of the distribution of cumulative costs (negative rewards). A policy gradient algorithm is developed, that we call POTPG. It is based on approximations of the tail risk derived from extreme value theory. Numerical experiments highlight the out-performance of our method over common benchmarks, relying on the empirical distribution. An application to financial risk management, more precisely to the dynamic hedging of a financial option, is presented.
Abstract（参考訳）: 本稿では, 逐次的意思決定プロセスの文脈において, 破滅的リスク(頻度が非常に低いが, 重大度が高いリスク)を緩和する問題に取り組む。この問題は、累積コスト(負の報酬)の分布の極端にある観測の不足のため、特に困難である。 POTPGと呼ばれるポリシー勾配アルゴリズムが開発されている。これは極値理論から導かれる尾のリスクの近似に基づいている。数値実験では,経験的分布に依存する一般的なベンチマークよりも,提案手法のアウトパフォーマンスを強調した。より正確には、金融オプションの動的ヘッジへの金融リスク管理の適用について述べる。

関連論文リスト

Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文参考訳（メタデータ） (2024-09-30T04:02:52Z)
Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文参考訳（メタデータ） (2024-03-28T17:28:06Z)
Diffusion Policies for Risk-Averse Behavior Modeling in Offline Reinforcement Learning [26.34178581703107]
オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。本研究では,不確実性と環境の両面に同時に対処する不確実性を考慮したオフラインRL法を提案する。本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
論文参考訳（メタデータ） (2024-03-26T12:28:04Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Domain Generalization without Excess Empirical Risk [83.26052467843725]
一般的なアプローチは、一般化を捉え、ペナルティと共同で経験的リスクを最小化するために、データ駆動の代理ペナルティを設計することである。我々は、このレシピの重大な失敗モードは、共同最適化における誤ったペナルティや難しさによる過度なリスクであると主張している。我々は,この問題を解消するアプローチを提案し,経験的リスクと刑罰を同時に最小化する代わりに,経験的リスクの最適性の制約の下でのペナルティを最小化する。
論文参考訳（メタデータ） (2023-08-30T08:46:46Z)
A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文参考訳（メタデータ） (2022-08-19T00:55:05Z)
Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-15T08:32:53Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
Risk-Averse Stochastic Shortest Path Planning [25.987787625028204]
最適、定常、マルコフの方針が存在することを示し、特別なベルマン方程式を用いて見出すことができる。ローバーナビゲーションMDPを用いて,条件値値リスク(CVaR)とエントロピー値値リスク(EVaR)のコヒーレントリスク尺度を用いて提案手法を説明する。
論文参考訳（メタデータ） (2021-03-26T20:49:14Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文参考訳（メタデータ） (2020-11-16T15:53:22Z)
Entropic Risk Constrained Soft-Robust Policy Optimization [12.362670630646805]
モデル不確実性によって引き起こされるリスクを定量化し、管理することは、高リスク領域において重要である。本稿では,モデルの不確実性に対するリスクに反する,エントロピー的リスク制約付きポリシー勾配とアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-20T23:48:28Z)
Cautious Reinforcement Learning via Distributional Risk in the Dual Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文参考訳（メタデータ） (2020-02-27T23:18:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。