論文の概要: Global Algorithms for Mean-Variance Optimization in Markov Decision
Processes
- arxiv url: http://arxiv.org/abs/2302.13710v1
- Date: Mon, 27 Feb 2023 12:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 15:47:18.416890
- Title: Global Algorithms for Mean-Variance Optimization in Markov Decision
Processes
- Title(参考訳): マルコフ決定過程における平均変数最適化のための大域的アルゴリズム
- Authors: Li Xia, Shuai Ma
- Abstract要約: マルコフ決定過程(MDP)における平均と分散の動的最適化は、動的プログラミングの失敗によって引き起こされる長年にわたる課題である。
本研究では, 定常平均値と分散値の組合せを組み合わさって, 無限水平非分散MDPの最適解を求める手法を提案する。
- 参考スコア(独自算出の注目度): 8.601670707452083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic optimization of mean and variance in Markov decision processes (MDPs)
is a long-standing challenge caused by the failure of dynamic programming. In
this paper, we propose a new approach to find the globally optimal policy for
combined metrics of steady-state mean and variance in an infinite-horizon
undiscounted MDP. By introducing the concepts of pseudo mean and pseudo
variance, we convert the original problem to a bilevel MDP problem, where the
inner one is a standard MDP optimizing pseudo mean-variance and the outer one
is a single parameter selection problem optimizing pseudo mean. We use the
sensitivity analysis of MDPs to derive the properties of this bilevel problem.
By solving inner standard MDPs for pseudo mean-variance optimization, we can
identify worse policy spaces dominated by optimal policies of the pseudo
problems. We propose an optimization algorithm which can find the globally
optimal policy by repeatedly removing worse policy spaces. The convergence and
complexity of the algorithm are studied. Another policy dominance property is
also proposed to further improve the algorithm efficiency. Numerical
experiments demonstrate the performance and efficiency of our algorithms. To
the best of our knowledge, our algorithm is the first that efficiently finds
the globally optimal policy of mean-variance optimization in MDPs. These
results are also valid for solely minimizing the variance metrics in MDPs.
- Abstract(参考訳): マルコフ決定過程(MDP)における平均と分散の動的最適化は、動的プログラミングの失敗に起因する長年にわたる課題である。
本稿では,無限ホライゾン分布のmdpにおける定常平均と分散の複合指標に対するグローバル最適方針を求めるための新しい手法を提案する。
擬似平均と擬似分散の概念を導入することにより、元の問題を二段階 MDP 問題に変換し、内は擬似平均分散を最適化する標準 MDP であり、外は擬似平均を最適化する単一パラメータ選択問題である。
MDPの感度解析を用いて、この二段階問題の性質を導出する。
擬似平均分散最適化のための内部標準MDPを解くことにより、擬似問題の最適ポリシーに支配される悪いポリシー空間を特定できる。
より悪いポリシー空間を繰り返し取り除き、グローバルな最適ポリシーを見つける最適化アルゴリズムを提案する。
アルゴリズムの収束と複雑さについて研究する。
アルゴリズムの効率をさらに改善するために、別のポリシー支配性も提案されている。
数値実験はアルゴリズムの性能と効率を実証する。
我々の知る限り、我々のアルゴリズムは、MDPにおける平均分散最適化のグローバルな最適ポリシーを効率的に見つける最初のものである。
これらの結果は,MDPの分散測定値の最小化にも有効である。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - MDP Geometry, Normalization and Reward Balancing Solvers [15.627546283580166]
マルコフ決定過程(英: Markov Decision Process、MDP)は、シーケンシャルな意思決定問題の数学的モデルである。
本稿では, 自然正規化手順によるMDPの幾何学的解釈を新たに提案する。これにより, 任意の政策に対する行動の利点を変えることなく, それぞれの状態における値関数を調整できる。
論文 参考訳(メタデータ) (2024-07-09T09:39:45Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Policy Gradient Algorithms for Robust MDPs with Non-Rectangular
Uncertainty Sets [10.26382228865201]
非矩形不確実性集合を持つロバスト無限水平マルコフ決定過程(MDP)に対するポリシー勾配アルゴリズムを提案する。
対応するロバストなMDPは動的プログラミング技術では解決できず、実際は難解である。
そこで我々は,大域的最適性保証を提供する非矩形不確実性集合を持つ頑健なMDPに対する最初の完全解法を提案する。
論文 参考訳(メタデータ) (2023-05-30T13:02:25Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints [36.16736392624796]
平均基準付き制約付きMDPに対する関数近似アルゴリズムを用いた新しいポリシー最適化を提案する。
我々は,平均CMDPに対する基本感度理論を開発し,それに対応する境界をアルゴリズムの設計に用いた。
ACMDPに適応した他の最先端アルゴリズムと比較して,実験性能が優れていることを示す。
論文 参考訳(メタデータ) (2023-02-02T00:23:36Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - A novel multiobjective evolutionary algorithm based on decomposition and
multi-reference points strategy [14.102326122777475]
分解に基づく多目的進化アルゴリズム(MOEA/D)は、多目的最適化問題(MOP)を解く上で、極めて有望なアプローチであると考えられている。
本稿では,よく知られたPascoletti-Serafiniスキャラライゼーション法とマルチ参照ポイントの新たな戦略により,MOEA/Dアルゴリズムの改良を提案する。
論文 参考訳(メタデータ) (2021-10-27T02:07:08Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Risk-Sensitive Markov Decision Processes with Combined Metrics of Mean
and Variance [3.062772835338966]
本稿では,長期平均値を持つ無限段階離散時間マルコフ決定過程(MDP)の最適化問題について検討する。
性能差式が導出され、任意の2つの異なるポリシーの下で、MPPの平均分散結合メトリクスの差を定量化することができる。
最適政策の必要条件と決定論的政策の最適性が導出される。
論文 参考訳(メタデータ) (2020-08-09T10:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。