論文の概要: Parameterized MDPs and Reinforcement Learning Problems -- A Maximum
Entropy Principle Based Framework
- arxiv url: http://arxiv.org/abs/2006.09646v3
- Date: Wed, 19 Jan 2022 06:43:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 19:25:25.763604
- Title: Parameterized MDPs and Reinforcement Learning Problems -- A Maximum
Entropy Principle Based Framework
- Title(参考訳): パラメータ化MDPと強化学習問題-最大エントロピー原理に基づくフレームワーク
- Authors: Amber Srivastava and Srinivasa M Salapaka
- Abstract要約: 逐次的意思決定問題に対処する枠組みを提案する。
我々のフレームワークは、ノイズの多いデータに対する堅牢性を備えた最適制御ポリシーの学習を特徴としている。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework to address a class of sequential decision making
problems. Our framework features learning the optimal control policy with
robustness to noisy data, determining the unknown state and action parameters,
and performing sensitivity analysis with respect to problem parameters. We
consider two broad categories of sequential decision making problems modelled
as infinite horizon Markov Decision Processes (MDPs) with (and without) an
absorbing state. The central idea underlying our framework is to quantify
exploration in terms of the Shannon Entropy of the trajectories under the MDP
and determine the stochastic policy that maximizes it while guaranteeing a low
value of the expected cost along a trajectory. This resulting policy enhances
the quality of exploration early on in the learning process, and consequently
allows faster convergence rates and robust solutions even in the presence of
noisy data as demonstrated in our comparisons to popular algorithms such as
Q-learning, Double Q-learning and entropy regularized Soft Q-learning. The
framework extends to the class of parameterized MDP and RL problems, where
states and actions are parameter dependent, and the objective is to determine
the optimal parameters along with the corresponding optimal policy. Here, the
associated cost function can possibly be non-convex with multiple poor local
minima. Simulation results applied to a 5G small cell network problem
demonstrate successful determination of communication routes and the small cell
locations. We also obtain sensitivity measures to problem parameters and
robustness to noisy environment data.
- Abstract(参考訳): 本稿では,一連の意思決定問題に対処する枠組みを提案する。
本フレームワークは,ノイズの多いデータに対するロバストな制御ポリシの学習,未知の状態と動作パラメータの決定,および問題パラメータに対する感度解析を行う。
無限水平マルコフ決定過程(MDP)と吸収状態(および非吸収状態)をモデル化した逐次決定問題の2つのカテゴリを考察する。
我々の枠組みの根底にある中心的な考え方は、mdpの下での軌道のシャノンエントロピーの観点で探索を定量化し、軌道に沿って期待されるコストの低い値を確保しながら、それを最大化する確率的政策を決定することである。
その結果、学習プロセスの初期段階における探索の質が向上し、q-learning、double q-learning、entropy regularized soft q-learningなどの一般的なアルゴリズムとの比較で示されているようなノイズデータが存在する場合でも、より高速な収束率と堅牢な解が得られる。
このフレームワークは、状態と動作がパラメータ依存であるパラメータ化されたMDPとRLの問題のクラスに拡張され、目的は、対応する最適ポリシーとともに最適なパラメータを決定することである。
ここでは、関連するコスト関数は、複数のローカルなミニマを持つ非凸である可能性がある。
5G小セルネットワーク問題に適用したシミュレーションの結果,通信経路と小セル位置の判定が成功した。
また,問題パラメータに対する感度尺度と雑音環境データに対するロバスト性も求めた。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z) - Online Parameter Estimation for Safety-Critical Systems with Gaussian
Processes [6.122161391301866]
オンラインパラメータ推定のためのガウス過程(GP)に基づくベイズ最適化フレームワークを提案する。
パラメータ空間の応答面上の効率的な探索戦略を用いて、最小限の機能評価で大域最適解を求める。
我々は,パラメータの変化を考慮したシミュレーションにおいて,アクティベートされた平面振子と安全臨界振子について実演する。
論文 参考訳(メタデータ) (2020-02-18T20:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。