論文の概要: Logarithmic regret bounds for continuous-time average-reward Markov
decision processes
- arxiv url: http://arxiv.org/abs/2205.11168v1
- Date: Mon, 23 May 2022 10:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 16:32:22.059465
- Title: Logarithmic regret bounds for continuous-time average-reward Markov
decision processes
- Title(参考訳): 連続時間平均回帰マルコフ決定過程に対する対数的後悔境界
- Authors: Xuefeng Gao, Xun Yu Zhou
- Abstract要約: 無限水平平均回帰設定における連続時間決定過程(MDP)の強化学習について検討する。
我々は、時間的地平線において対数的なインスタンス依存の後悔の下限を導出する。
- 参考スコア(独自算出の注目度): 3.4519649635864593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider reinforcement learning for continuous-time Markov decision
processes (MDPs) in the infinite-horizon, average-reward setting. In contrast
to discrete-time MDPs, a continuous-time process moves to a state and stays
there for a random holding time after an action is taken. With unknown
transition probabilities and rates of exponential holding times, we derive
instance-dependent regret lower bounds that are logarithmic in the time
horizon. Moreover, we design a learning algorithm and establish a finite-time
regret bound that achieves the logarithmic growth rate. Our analysis builds
upon upper confidence reinforcement learning, a delicate estimation of the mean
holding times, and stochastic comparison of point processes.
- Abstract(参考訳): 無限ホリゾン平均回帰設定における連続時間マルコフ決定過程(mdps)に対する強化学習を考える。
離散時間MDPとは対照的に、連続時間プロセスは状態に移動し、アクションが実行された後にランダムに保持される。
未知の遷移確率と指数的保持時間率により、時間地平線において対数的となるインスタンス依存の後悔の下限を導出する。
さらに,学習アルゴリズムを設計し,対数成長率を達成する有限時間後悔境界を確立する。
本分析は,高信頼度強化学習,平均保持時間の微妙な推定,点過程の確率的比較に基づく。
関連論文リスト
- Stochastic Approximation with Delayed Updates: Finite-Time Rates under
Markovian Sampling [76.72850243028888]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Square-root regret bounds for continuous-time episodic Markov decision
processes [11.585113506994471]
有限水平エピソード設定における連続時間マルコフ決定過程(MDP)の強化学習について検討した。
本稿では,反復値と高信頼度境界に基づく学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T11:35:07Z) - Losing momentum in continuous-time stochastic optimisation [62.997667081978825]
近年,運動量に基づくアルゴリズムが特に普及している。
本研究では,運動量を伴う勾配降下の連続時間モデルを提案し,解析する。
我々は、時間とともに運動量を減らす際に、我々のシステムを世界規模のミニミザーに収束させることを示す。
論文 参考訳(メタデータ) (2022-09-08T10:46:05Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Predictor-corrector algorithms for stochastic optimization under gradual
distribution shift [26.897316325189212]
時間変化の最適化問題は機械学習の実践で頻繁に発生する。
我々は、時間変動最適化のための予測器相関アルゴリズムを開発することにより、この基礎となる連続性を利用する。
論文 参考訳(メタデータ) (2022-05-26T18:33:00Z) - Contrastive learning of strong-mixing continuous-time stochastic
processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。
拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文 参考訳(メタデータ) (2021-03-03T23:06:47Z) - The Connection between Discrete- and Continuous-Time Descriptions of
Gaussian Continuous Processes [60.35125735474386]
我々は、一貫した推定子をもたらす離散化が粗粒化下での不変性を持つことを示す。
この結果は、導関数再構成のための微分スキームと局所時間推論アプローチの組み合わせが、2次または高次微分方程式の時系列解析に役立たない理由を説明する。
論文 参考訳(メタデータ) (2021-01-16T17:11:02Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Logarithmic regret for episodic continuous-time linear-quadratic
reinforcement learning over a finite-time horizon [7.123160883637873]
本研究では, 連続時間線形2次強化学習問題をエピソード環境下で研究する。
連続時間観測と制御に基づく最小二乗アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-27T08:14:59Z) - Stochastic Approximation with Markov Noise: Analysis and applications in
reinforcement learning [0.0]
マルコフ雑音によって駆動される2つの時間スケール近似の収束解析を初めて提示する。
両方の時間スケールにおける差分包摂を限定することで、フレームワークの挙動を分析する。
ポリシ評価アルゴリズムの関数近似における最初の情報的誤差境界を求める。
論文 参考訳(メタデータ) (2020-04-08T03:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。