論文の概要: An Actor-Critic Algorithm with Function Approximation for Risk Sensitive Cost Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2502.11604v1
- Date: Mon, 17 Feb 2025 09:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:34.410031
- Title: An Actor-Critic Algorithm with Function Approximation for Risk Sensitive Cost Markov Decision Processes
- Title(参考訳): リスク感性コストマルコフ決定過程に対する関数近似を用いたアクタクリティカルアルゴリズム
- Authors: Soumyajit Guin, Vivek S. Borkar, Shalabh Bhatnagar,
- Abstract要約: 我々はマルコフ決定プロセスの指数的コストを伴うリスク感受性コスト基準を考察し、この設定でモデルフリーポリシーアルゴリズムを開発する。
本稿では,最近の論文における他のアルゴリズムよりもアルゴリズムの性能が優れていることを示す数値実験の結果を示す。
- 参考スコア(独自算出の注目度): 5.945710235932345
- License:
- Abstract: In this paper, we consider the risk-sensitive cost criterion with exponentiated costs for Markov decision processes and develop a model-free policy gradient algorithm in this setting. Unlike additive cost criteria such as average or discounted cost, the risk-sensitive cost criterion is less studied due to the complexity resulting from the multiplicative structure of the resulting Bellman equation. We develop an actor-critic algorithm with function approximation in this setting and provide its asymptotic convergence analysis. We also show the results of numerical experiments that demonstrate the superiority in performance of our algorithm over other recent algorithms in the literature.
- Abstract(参考訳): 本稿では,マルコフ決定プロセスの指数的コストによるリスク感性コスト基準を考察し,この設定でモデルフリーなポリシー勾配アルゴリズムを開発する。
平均や割引コストなどの付加コスト基準とは異なり、ベルマン方程式の乗法構造から生じる複雑さのため、リスクに敏感なコスト基準はあまり研究されない。
本研究では,この設定で関数近似を用いたアクター批判アルゴリズムを開発し,その漸近収束解析を提供する。
また,最近の論文における他のアルゴリズムよりも,アルゴリズムの性能が優れていることを示す数値実験の結果を示す。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - High-dimensional Contextual Bandit Problem without Sparsity [8.782204980889077]
本稿では,この問題に対処し,その性能を検証するための探索列コミット(EtC)アルゴリズムを提案する。
我々は、ETCアルゴリズムの最適レートを$T$で導出し、探索とエクスプロイトのバランスをとることで、このレートを実現できることを示す。
本稿では,最適バランスを適応的に求める適応探索定理 (AEtC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-19T15:29:32Z) - Forward-PECVaR Algorithm: Exact Evaluation for CVaR SSPs [1.347733333991357]
Conditional Value at Risk (CVaR)は、任意のレベルのリスクをモデリングできる基準である。
非一様コストでCVaR-SSPの定常ポリシーを正確に評価するアルゴリズムであるForward-PECVaRを提案する。
論文 参考訳(メタデータ) (2023-03-01T17:10:22Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Finite-Sample Analysis of Off-Policy Natural Actor-Critic Algorithm [4.932130498861987]
重要度サンプリングに基づく自然アクタ-クリティック(nac)アルゴリズムのオフポリシー変種に対する有限サンプル収束保証を提供する。
このアルゴリズムは、ステップの適切な選択の下で$mathcalo(epsilon-3log2(1/epsilon)$のサンプル複雑性を持つ大域的最適ポリシーに収束する。
論文 参考訳(メタデータ) (2021-02-18T13:22:59Z) - Correlated Bandits for Dynamic Pricing via the ARC algorithm [2.7564955518050693]
漸近ランダム化制御(Asymptotic Randomized Control)は、ベイズバンドの幅広いクラスに対する最適な戦略に厳密な近似を与える。
これにより、意思決定者は報酬に加えて信号を観察し、異なる選択の結果の相関を組み込むことができ、見積もりに非自明なダイナミクスを持つことができる。
論文 参考訳(メタデータ) (2021-02-08T14:54:26Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。