論文の概要: Risk-Averse Total-Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.21683v1
- Date: Thu, 26 Jun 2025 18:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.966041
- Title: Risk-Averse Total-Reward Reinforcement Learning
- Title(参考訳): リスク・アバース・トータル・リワード強化学習
- Authors: Xihong Su, Jia Lin Hau, Gersi Doko, Kishan Panaganti, Marek Petrik,
- Abstract要約: リスク逆トータルリワードマルコフ決定プロセス(MDP)は、未公表の無限水平目標をモデル化し解決するための有望なフレームワークを提供する。
エントロピーリスク測度(ERM)やエントロピーバリュー・アット・リスク(EVaR)のような既存のリスク測度のためのモデルベースのアルゴリズムは、小さな問題に対して有効であるが、遷移確率への完全なアクセスが必要である。
本稿では,完全逆ERMとEVaRの目標に対して,コンバージェンスと性能保証を両立させるためのQ-ラーニングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.129584027640405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Risk-averse total-reward Markov Decision Processes (MDPs) offer a promising framework for modeling and solving undiscounted infinite-horizon objectives. Existing model-based algorithms for risk measures like the entropic risk measure (ERM) and entropic value-at-risk (EVaR) are effective in small problems, but require full access to transition probabilities. We propose a Q-learning algorithm to compute the optimal stationary policy for total-reward ERM and EVaR objectives with strong convergence and performance guarantees. The algorithm and its optimality are made possible by ERM's dynamic consistency and elicitability. Our numerical results on tabular domains demonstrate quick and reliable convergence of the proposed Q-learning algorithm to the optimal risk-averse value function.
- Abstract(参考訳): リスク逆トータルリワードマルコフ決定プロセス(MDP)は、未公表の無限水平目標をモデル化し解決するための有望なフレームワークを提供する。
エントロピーリスク測度(ERM)やエントロピーバリュー・アット・リスク(EVaR)のような既存のリスク測度のためのモデルベースのアルゴリズムは、小さな問題に対して有効であるが、遷移確率への完全なアクセスが必要である。
本稿では,完全逆ERMとEVaRの目標に対して,コンバージェンスと性能保証を両立させるためのQ-ラーニングアルゴリズムを提案する。
アルゴリズムとその最適性は、ERMの動的一貫性と有効性によって実現される。
表領域での数値計算結果から,提案したQ-ラーニングアルゴリズムの最適リスク-逆値関数への高速かつ信頼性の高い収束性を示した。
関連論文リスト
- Planning and Learning in Average Risk-aware MDPs [4.696083734269232]
我々はリスクニュートラルアルゴリズムを拡張し、より一般的なリスク対策のクラスに対応する。
RVIアルゴリズムとQラーニングアルゴリズムの両方が最適性に収束することが証明されている。
弊社のアプローチは、エージェントの複雑なリスク認識に微調整されたポリシーの特定を可能にする。
論文 参考訳(メタデータ) (2025-03-22T03:18:09Z) - Efficient Risk-sensitive Planning via Entropic Risk Measures [51.42922439693624]
動的プログラミングにより,エントロピーリスク対策(EntRM)のみを効率的に最適化できることを示す。
エントロピーリスクの新たな構造解析と滑らかさ特性により, この最適性を効果的に計算できることを実証する。
論文 参考訳(メタデータ) (2025-02-27T09:56:51Z) - Risk-Averse Certification of Bayesian Neural Networks [70.44969603471903]
本稿では,RAC-BNNと呼ばれるベイズニューラルネットワークに対するリスク・アバース認証フレームワークを提案する。
提案手法はサンプリングと最適化を利用して,BNNの出力集合の音響近似を計算する。
我々は,RAC-BNNを回帰および分類ベンチマークで検証し,その性能を最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-11-29T14:22:51Z) - Risk-averse Total-reward MDPs with ERM and EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。
以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-30T13:33:18Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Risk-Averse Reinforcement Learning via Dynamic Time-Consistent Risk
Measures [10.221369785560785]
本稿では,マルコフ決定過程(MDP)における報酬列の動的リスクを最大化する問題について考察する。
予測と条件付きリスクリスク(CVaR)の凸結合を特別な一段階の条件付きリスク尺度として用いて、我々は、リスク回避型MDPを、強化されたアクション空間を持つリスク中立型として再構成し、即時報酬の操作を行う。
本研究は,リスク・アバース・セッティングが分散を低減し,その結果のロバスト性を高めることを示唆するものである。
論文 参考訳(メタデータ) (2023-01-14T21:43:18Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。