論文の概要: Risk-Sensitive Markov Decision Processes with Combined Metrics of Mean
and Variance
- arxiv url: http://arxiv.org/abs/2008.03707v1
- Date: Sun, 9 Aug 2020 10:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:07:45.555738
- Title: Risk-Sensitive Markov Decision Processes with Combined Metrics of Mean
and Variance
- Title(参考訳): リスク感性マルコフ決定過程における平均と変動の組合せ
- Authors: Li Xia
- Abstract要約: 本稿では,長期平均値を持つ無限段階離散時間マルコフ決定過程(MDP)の最適化問題について検討する。
性能差式が導出され、任意の2つの異なるポリシーの下で、MPPの平均分散結合メトリクスの差を定量化することができる。
最適政策の必要条件と決定論的政策の最適性が導出される。
- 参考スコア(独自算出の注目度): 3.062772835338966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the optimization problem of an infinite stage
discrete time Markov decision process (MDP) with a long-run average metric
considering both mean and variance of rewards together. Such performance metric
is important since the mean indicates average returns and the variance
indicates risk or fairness. However, the variance metric couples the rewards at
all stages, the traditional dynamic programming is inapplicable as the
principle of time consistency fails. We study this problem from a new
perspective called the sensitivity-based optimization theory. A performance
difference formula is derived and it can quantify the difference of the
mean-variance combined metrics of MDPs under any two different policies. The
difference formula can be utilized to generate new policies with strictly
improved mean-variance performance. A necessary condition of the optimal policy
and the optimality of deterministic policies are derived. We further develop an
iterative algorithm with a form of policy iteration, which is proved to
converge to local optima both in the mixed and randomized policy space.
Specially, when the mean reward is constant in policies, the algorithm is
guaranteed to converge to the global optimum. Finally, we apply our approach to
study the fluctuation reduction of wind power in an energy storage system,
which demonstrates the potential applicability of our optimization method.
- Abstract(参考訳): 本稿では,報酬の平均と分散を考慮した長期平均指標を用いた無限段階離散時間マルコフ決定過程(mdp)の最適化問題について検討する。
平均は平均リターンを示し、分散はリスクまたは公正を示すので、このようなパフォーマンス指標は重要である。
しかし、分散計量はすべての段階で報酬を結合し、伝統的な動的プログラミングは時間一貫性の原則が失敗するため適用できない。
我々はこの問題を感度に基づく最適化理論と呼ばれる新しい視点から研究する。
性能差公式が導出され、2つの異なるポリシーの下でmdpの平均分散結合指標の差を定量化することができる。
差分公式は、厳密に平均分散性能が向上した新しいポリシーを生成するのに利用できる。
最適政策の必要条件と決定論的政策の最適性が導出される。
さらにポリシー反復の形で反復的アルゴリズムを開発し、混合およびランダム化されたポリシー空間において局所最適に収束することが証明された。
特に、平均報酬がポリシーで一定であれば、アルゴリズムはグローバル最適に収束することが保証される。
最後に,エネルギー貯蔵システムにおける風力発電のゆらぎ低減に関する研究に本手法を適用し,最適化手法の適用可能性を示す。
関連論文リスト
- Global Algorithms for Mean-Variance Optimization in Markov Decision
Processes [8.601670707452083]
マルコフ決定過程(MDP)における平均と分散の動的最適化は、動的プログラミングの失敗によって引き起こされる長年にわたる課題である。
本研究では, 定常平均値と分散値の組合せを組み合わさって, 無限水平非分散MDPの最適解を求める手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T12:17:43Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Stochastic first-order methods for average-reward Markov decision
processes [10.483316336206903]
平均回帰マルコフ決定過程(AMDP)の問題点について検討する。
我々は,政策評価と最適化の両面において,強力な理論的保証を持つ新しい一階法を開発した。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - A unified algorithm framework for mean-variance optimization in
discounted Markov decision processes [7.510742715895749]
本稿では,無限水平割引マルコフ決定過程(MDP)におけるリスク-逆平均分散最適化について検討する。
本稿では,処理不能なMPPを標準形式で再定義された報酬関数を持つ標準形式に変換するための擬似平均を導入する。
平均分散最適化のための2レベル最適化構造を持つ統合アルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T02:19:56Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。