論文の概要: Policy Newton methods for Distortion Riskmetrics
- arxiv url: http://arxiv.org/abs/2508.07249v1
- Date: Sun, 10 Aug 2025 09:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.77665
- Title: Policy Newton methods for Distortion Riskmetrics
- Title(参考訳): 歪リスク測定のための政策ニュートン法
- Authors: Soumen Pachal, Mizhaan Prajit Maniyar, Prashanth L. A,
- Abstract要約: 有限地平面マルコフ決定過程(MDP)において、割引報酬の歪みリスクメトリック(DRM)を最大化してリスク最適政策を求める。
そこで本研究では, MDP のサンプル軌跡から, 自然な DRM ヘッセン推定器を提案する。
提案アルゴリズムはDRM目標の2次定常点(epsilon$-SOSP)に収束することを示す。
- 参考スコア(独自算出の注目度): 7.8105721078323835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of risk-sensitive control in a reinforcement learning (RL) framework. In particular, we aim to find a risk-optimal policy by maximizing the distortion riskmetric (DRM) of the discounted reward in a finite horizon Markov decision process (MDP). DRMs are a rich class of risk measures that include several well-known risk measures as special cases. We derive a policy Hessian theorem for the DRM objective using the likelihood ratio method. Using this result, we propose a natural DRM Hessian estimator from sample trajectories of the underlying MDP. Next, we present a cubic-regularized policy Newton algorithm for solving this problem in an on-policy RL setting using estimates of the DRM gradient and Hessian. Our proposed algorithm is shown to converge to an $\epsilon$-second-order stationary point ($\epsilon$-SOSP) of the DRM objective, and this guarantee ensures the escaping of saddle points. The sample complexity of our algorithms to find an $ \epsilon$-SOSP is $\mathcal{O}(\epsilon^{-3.5})$. Our experiments validate the theoretical findings. To the best of our knowledge, our is the first work to present convergence to an $\epsilon$-SOSP of a risk-sensitive objective, while existing works in the literature have either shown convergence to a first-order stationary point of a risk-sensitive objective, or a SOSP of a risk-neutral one.
- Abstract(参考訳): 強化学習(RL)フレームワークにおけるリスク感受性制御の問題点を考察する。
特に,有限地平面マルコフ決定プロセス(MDP)において,割引報酬の歪みリスクメトリック(DRM)を最大化することにより,リスク最適政策を求める。
DRMは、いくつかのよく知られたリスク対策を含む、豊富なリスク対策のクラスである。
DRM目標に対するポリシ・ヘッセンの定理を,確率比法を用いて導出する。
この結果を用いて,MDP の標本軌跡から自然な DRM Hessian 推定器を提案する。
次に,DRM勾配とHessianの推定値を用いて,この問題を解決するための3次正規化ポリシNewtonアルゴリズムを提案する。
提案アルゴリズムはDRM目標の$\epsilon$-second-order 定常点($\epsilon$-SOSP)に収束し,サドル点の逃避を保証する。
アルゴリズムのサンプルの複雑さにより、$ \epsilon$-SOSP は $\mathcal{O}(\epsilon^{-3.5})$ となる。
我々の実験は理論的な結果を検証した。
我々の知る限り、我々はリスクセンシティブな目標の$\epsilon$-SOSPへの収束を示す最初の研究であり、文献における既存の研究は、リスクセンシティブな目標の1次定常点、またはリスクニュートラルな目標のSOSPへの収束を示す。
関連論文リスト
- A Reductions Approach to Risk-Sensitive Reinforcement Learning with Optimized Certainty Equivalents [44.09686403685058]
本研究の目的は,累積報酬のリスク尺度を最適化する履歴依存政策を学習することである。
楽観主義に基づくメタアルゴリズムと政策勾配に基づくメタアルゴリズムを提案する。
我々は,提案アルゴリズムが概念実証MDPで最適な履歴依存ポリシーを学習できることを実証的に示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - A policy gradient approach for optimization of smooth risk measures [8.087699764574788]
本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。
本稿では,2つのテンプレート・ポリシー・グラデーション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-22T17:26:28Z) - Policy Gradient Methods for Distortion Risk Measures [9.554545881355377]
強化学習フレームワークにおいてリスクに敏感なポリシーを学習するポリシー勾配アルゴリズムを提案する。
我々はDRM目標に適合するポリシー勾配定理の変種を導出し、確率比に基づく勾配推定スキームと統合する。
論文 参考訳(メタデータ) (2021-07-09T13:14:12Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。