論文の概要: Logarithmic regret bounds for continuous-time average-reward Markov decision processes
- arxiv url: http://arxiv.org/abs/2205.11168v4
- Date: Tue, 2 Jul 2024 06:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 10:36:26.893221
- Title: Logarithmic regret bounds for continuous-time average-reward Markov decision processes
- Title(参考訳): 連続時間平均回帰マルコフ決定過程に対する対数的後悔境界
- Authors: Xuefeng Gao, Xun Yu Zhou,
- Abstract要約: 無限水平平均回帰設定における連続時間決定過程(MDP)の強化学習について検討する。
我々は、時間的地平線において対数的なインスタンス依存の後悔の下限を導出する。
- 参考スコア(独自算出の注目度): 9.806527798032809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider reinforcement learning for continuous-time Markov decision processes (MDPs) in the infinite-horizon, average-reward setting. In contrast to discrete-time MDPs, a continuous-time process moves to a state and stays there for a random holding time after an action is taken. With unknown transition probabilities and rates of exponential holding times, we derive instance-dependent regret lower bounds that are logarithmic in the time horizon. Moreover, we design a learning algorithm and establish a finite-time regret bound that achieves the logarithmic growth rate. Our analysis builds upon upper confidence reinforcement learning, a delicate estimation of the mean holding times, and stochastic comparison of point processes.
- Abstract(参考訳): 本研究では,連続時間マルコフ決定過程(MDP)の無限水平平均回帰設定における強化学習について検討する。
離散時間 MDP とは対照的に、連続時間プロセスは状態に移動し、アクションが実行された後にランダムに保持された時間にそこに留まる。
未知の遷移確率と指数的保持時間率により、時間地平線における対数的な、インスタンス依存の後悔の低い境界を導出する。
さらに、学習アルゴリズムを設計し、対数的成長率を達成する有限時間後悔境界を確立する。
本分析は,高信頼度強化学習,平均保持時間の微妙な推定,点過程の確率的比較に基づく。
関連論文リスト
- On Bellman equations for continuous-time policy evaluation I: discretization and approximation [3.704688279256839]
本研究では,連続時間拡散過程の離散的に観測された軌道から値関数を計算する問題について検討する。
離散時間強化学習と互換性のある,容易に実装可能な数値スキームに基づく新しいアルゴリズムのクラスを開発する。
論文 参考訳(メタデータ) (2024-07-08T14:05:03Z) - An Idiosyncrasy of Time-discretization in Reinforcement Learning [7.085780872622857]
離散化の選択が強化学習アルゴリズムに与える影響について検討する。
我々は離散時間アルゴリズムを離散化された連続時間環境に適用することで、慣用性を認めている。
論文 参考訳(メタデータ) (2024-06-21T08:03:25Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Bridging discrete and continuous state spaces: Exploring the Ehrenfest process in time-continuous diffusion models [4.186575888568896]
離散状態空間上での時間連続マルコフジャンプ過程について検討する。
エレンフェスト過程の時間反転は、時間反転するオルンシュタイン-ウレンベック過程に収束することを示す。
論文 参考訳(メタデータ) (2024-05-06T15:12:51Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Square-root regret bounds for continuous-time episodic Markov decision
processes [11.585113506994471]
有限水平エピソード設定における連続時間マルコフ決定過程(MDP)の強化学習について検討した。
本稿では,反復値と高信頼度境界に基づく学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T11:35:07Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Contrastive learning of strong-mixing continuous-time stochastic
processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。
拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文 参考訳(メタデータ) (2021-03-03T23:06:47Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Logarithmic regret for episodic continuous-time linear-quadratic
reinforcement learning over a finite-time horizon [7.123160883637873]
本研究では, 連続時間線形2次強化学習問題をエピソード環境下で研究する。
連続時間観測と制御に基づく最小二乗アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-27T08:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。