論文の概要: Square-root regret bounds for continuous-time episodic Markov decision
processes
- arxiv url: http://arxiv.org/abs/2210.00832v2
- Date: Tue, 3 Oct 2023 01:50:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 11:11:40.456811
- Title: Square-root regret bounds for continuous-time episodic Markov decision
processes
- Title(参考訳): 連続時間マルコフ決定過程に対する平方根後悔境界
- Authors: Xuefeng Gao and Xun Yu Zhou
- Abstract要約: 有限水平エピソード設定における連続時間マルコフ決定過程(MDP)の強化学習について検討した。
本稿では,反復値と高信頼度境界に基づく学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.585113506994471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reinforcement learning for continuous-time Markov decision processes
(MDPs) in the finite-horizon episodic setting. In contrast to discrete-time
MDPs, the inter-transition times of a continuous-time MDP are exponentially
distributed with rate parameters depending on the state--action pair at each
transition. We present a learning algorithm based on the methods of value
iteration and upper confidence bound. We derive an upper bound on the
worst-case expected regret for the proposed algorithm, and establish a
worst-case lower bound, both bounds are of the order of square-root on the
number of episodes. Finally, we conduct simulation experiments to illustrate
the performance of our algorithm.
- Abstract(参考訳): 有限水平エピソード設定における連続時間マルコフ決定過程(MDP)の強化学習について検討した。
離散時間 MDP とは対照的に、連続時間 MDP の遷移時間間の遷移時間は、各遷移における状態-作用対に依存するレートパラメータで指数関数的に分散される。
本稿では,価値反復法と高信頼度境界に基づく学習アルゴリズムを提案する。
我々は,提案アルゴリズムの最悪の遺言を上界に導き,最悪の下界を確立し,両境界はエピソード数で平方根の順である。
最後に,シミュレーション実験を行い,アルゴリズムの性能について述べる。
関連論文リスト
- Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Improved High-Probability Bounds for the Temporal Difference Learning Algorithm via Exponential Stability [17.771354881467435]
一般化された, インスタンスに依存しないステップサイズを持つ単純なアルゴリズムは, ほぼ最適分散とバイアス項を得るのに十分であることを示す。
本手法は, 線形近似のための洗練された誤差境界と, ランダム行列の積に対する新しい安定性結果に基づく。
論文 参考訳(メタデータ) (2023-10-22T12:37:25Z) - Provably Efficient Exploration in Constrained Reinforcement
Learning:Posterior Sampling Is All You Need [15.113053885573171]
本稿では,制約付きマルコフ決定過程(CMDP)における学習のための後方サンプリングに基づく新しいアルゴリズムを提案する。
このアルゴリズムは,既存のアルゴリズムと比較して経験的に有利でありながら,ほぼ最適の後悔境界を達成している。
論文 参考訳(メタデータ) (2023-09-27T15:48:36Z) - A Reduction-based Framework for Sequential Decision Making with Delayed
Feedback [53.79893086002961]
汎用マルチエージェントシーケンシャル意思決定における遅延フィードバックについて検討する。
本稿では, 逐次的意思決定のためのマルチバッチアルゴリズムを, 即時フィードバックにより, サンプル効率のよいアルゴリズムに変換する, 新たなリダクションベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-03T01:16:09Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Logarithmic regret bounds for continuous-time average-reward Markov decision processes [9.806527798032809]
無限水平平均回帰設定における連続時間決定過程(MDP)の強化学習について検討する。
我々は、時間的地平線において対数的なインスタンス依存の後悔の下限を導出する。
論文 参考訳(メタデータ) (2022-05-23T10:15:00Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Logarithmic regret for episodic continuous-time linear-quadratic
reinforcement learning over a finite-time horizon [7.123160883637873]
本研究では, 連続時間線形2次強化学習問題をエピソード環境下で研究する。
連続時間観測と制御に基づく最小二乗アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-27T08:14:59Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。