論文の概要: DeepTOP: Deep Threshold-Optimal Policy for MDPs and RMABs
- arxiv url: http://arxiv.org/abs/2209.08646v1
- Date: Sun, 18 Sep 2022 20:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:23:36.429396
- Title: DeepTOP: Deep Threshold-Optimal Policy for MDPs and RMABs
- Title(参考訳): DeepTOP:MDPとRMABのためのDeep Threshold-Optimal Policy
- Authors: Khaled Nakhleh, I-Hong Hou
- Abstract要約: 制御問題に対する最適しきい値ポリシーを学習する問題を考察する。
しきい値ポリシーの単調性を活用することで、それらの政策勾配が驚くほど単純な表現であることを証明する。
我々は,Whittleインデックスを間接的手法で学習する最近のいくつかの研究よりも,Whittleインデックスをはるかに高速に学習することを示す。
- 参考スコア(独自算出の注目度): 8.310098007927989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of learning the optimal threshold policy for control
problems. Threshold policies make control decisions by evaluating whether an
element of the system state exceeds a certain threshold, whose value is
determined by other elements of the system state. By leveraging the monotone
property of threshold policies, we prove that their policy gradients have a
surprisingly simple expression. We use this simple expression to build an
off-policy actor-critic algorithm for learning the optimal threshold policy.
Simulation results show that our policy significantly outperforms other
reinforcement learning algorithms due to its ability to exploit the monotone
property. In addition, we show that the Whittle index, a powerful tool for
restless multi-armed bandit problems, is equivalent to the optimal threshold
policy for an alternative problem. This observation leads to a simple algorithm
that finds the Whittle index by learning the optimal threshold policy in the
alternative problem. Simulation results show that our algorithm learns the
Whittle index much faster than several recent studies that learn the Whittle
index through indirect means.
- Abstract(参考訳): 制御問題に対する最適しきい値ポリシーを学習する問題を考察する。
閾値ポリシーは、システム状態の要素が特定のしきい値を超え、その値がシステム状態の他の要素によって決定されるかどうかを評価することによって制御決定を行う。
しきい値ポリシーの単調性を活用することで、それらの政策勾配が驚くほど単純な表現であることを証明する。
この簡単な表現を用いて,オフ・ポリティカル・アクタ・クリティック・アルゴリズムを構築し,最適なしきい値ポリシーを学習する。
シミュレーションの結果,本手法はモノトーン特性を活用できるため,他の強化学習アルゴリズムよりも優れていた。
さらに, restless multi-armed bandit問題に対する強力なツールであるwhitle indexが, 代替問題に対する最適しきい値ポリシーと等価であることを示す。
この観察は、代替問題における最適しきい値ポリシーを学習することにより、ウィトル指数を求める単純なアルゴリズムにつながる。
シミュレーションの結果,このアルゴリズムは間接的な手法を用いてWhittleインデックスを学習する最近のいくつかの研究よりもはるかに高速であることがわかった。
関連論文リスト
- TD-M(PC)$^2$: Improving Temporal Difference MPC Through Policy Constraint [11.347808936693152]
モデルベースの強化学習アルゴリズムは、モデルベースの計画と学習された価値/政治を組み合わせる。
バリューラーニングに標準のSACスタイルのポリシーイテレーションに依存する既存の手法は、しばしばエンハンピスタントな価値過大評価をもたらす。
本稿では,ODAクエリを削減し,価値学習を改善する政策正規化項を提案する。
論文 参考訳(メタデータ) (2025-02-05T19:08:42Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm [16.115903198836694]
既存のデータから最適な行動を学ぶことは、強化学習(RL)における最も重要な問題の1つである。
エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:36:45Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。