論文の概要: Finding the Near Optimal Policy via Adaptive Reduced Regularization in
MDPs
- arxiv url: http://arxiv.org/abs/2011.00213v1
- Date: Sat, 31 Oct 2020 08:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 04:30:19.347376
- Title: Finding the Near Optimal Policy via Adaptive Reduced Regularization in
MDPs
- Title(参考訳): MDPにおける適応還元正則化による近似最適政策の探索
- Authors: Wenhao Yang, Xiang Li, Guangzeng Xie, Zhihua Zhang
- Abstract要約: 正規化 MDP はオリジナルの MDP のスムーズなバージョンとして機能する。
偏りのある最適政策は、常に正規化されたMDPに対して存在する。
本稿では,従来のMDPの最適ポリシを近似するために,ラムダを適応的に削減する手法を提案する。
- 参考スコア(独自算出の注目度): 22.642894680618333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regularized MDPs serve as a smooth version of original MDPs. However, biased
optimal policy always exists for regularized MDPs. Instead of making the
coefficient{\lambda}of regularized term sufficiently small, we propose an
adaptive reduction scheme for {\lambda} to approximate optimal policy of the
original MDP. It is shown that the iteration complexity for obtaining
an{\epsilon}-optimal policy could be reduced in comparison with setting
sufficiently small{\lambda}. In addition, there exists strong duality
connection between the reduction method and solving the original MDP directly,
from which we can derive more adaptive reduction method for certain algorithms.
- Abstract(参考訳): 正規化 MDP はオリジナルの MDP のスムーズなバージョンとして機能する。
しかし、常に偏った最適政策は正規化されたMDPに対して存在する。
正規化項の係数{\lambda} を十分に小さくするのではなく、元の mdp の最適ポリシーを近似するために {\lambda} の適応還元スキームを提案する。
十分小さな{\lambdaを設定した場合と比較して,最適なポリシを得るためのイテレーションの複雑さを低減できることが示されている。
さらに、還元法と元のmdpを直接解く方法の間には強い双対性関係があり、あるアルゴリズムに対してより適応的な還元法を導出することができる。
関連論文リスト
- Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with
Uniform PAC Guarantees [30.064420218612582]
本稿では,オンライン制約付きマルコフ決定過程(CMDP)問題に対するRLアルゴリズムについて検討する。
均一に近似した精度(Uniform-PAC)を保証する新しい勾配双対アルゴリズムを提案する。
理論的保証に加えて、我々のアルゴリズムが最適ポリシーに収束することを示す単純なCMDPを実証的に示す。
論文 参考訳(メタデータ) (2024-01-31T12:23:24Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Global Algorithms for Mean-Variance Optimization in Markov Decision
Processes [8.601670707452083]
マルコフ決定過程(MDP)における平均と分散の動的最適化は、動的プログラミングの失敗によって引き起こされる長年にわたる課題である。
本研究では, 定常平均値と分散値の組合せを組み合わさって, 無限水平非分散MDPの最適解を求める手法を提案する。
論文 参考訳(メタデータ) (2023-02-27T12:17:43Z) - Robust Average-Reward Markov Decision Processes [25.125481838479256]
我々は,不確実なセットに対して最悪の平均報酬を最適化する政策を見出すことを目標とする,堅牢な平均リワードMDPに焦点を当てる。
我々は, ディスカウント型MDPを用いて, 平均回帰MDPを近似するアプローチを採っている。
我々は、ロバスト平均逆 MDP に対するロバストなベルマン方程式を導出し、最適ポリシーがその解から導出できることを証明し、さらに、その解を確実に見つけ出すロバストな相対値アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-02T19:51:55Z) - BALPA: A Balanced Primal-Dual Algorithm for Nonsmooth Optimization with
Application to Distributed Optimization [39.67743321086165]
等式制約のある合成最適化問題に対して,新しい原始二元近位分割アルゴリズム (PD-PSA) を提案する。
BALPAでは、二重更新は時間変化の二次関数の近点として設計され、原始的および二重更新の実装のバランスをとる。
本稿では,BALPA(S-BALPA)のバージョンを提案し,新たな分散最適化アルゴリズムの開発にBALPAを適用した。
論文 参考訳(メタデータ) (2022-12-06T09:18:31Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。