Fugu-MT 論文翻訳(概要): Logarithmic regret bounds for continuous-time average-reward Markov decision processes

論文の概要: Logarithmic regret bounds for continuous-time average-reward Markov decision processes

arxiv url: http://arxiv.org/abs/2205.11168v1
Date: Mon, 23 May 2022 10:15:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 16:32:22.059465
Title: Logarithmic regret bounds for continuous-time average-reward Markov decision processes
Title（参考訳）: 連続時間平均回帰マルコフ決定過程に対する対数的後悔境界
Authors: Xuefeng Gao, Xun Yu Zhou
Abstract要約: 無限水平平均回帰設定における連続時間決定過程(MDP)の強化学習について検討する。我々は、時間的地平線において対数的なインスタンス依存の後悔の下限を導出する。
参考スコア（独自算出の注目度）: 3.4519649635864593
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider reinforcement learning for continuous-time Markov decision processes (MDPs) in the infinite-horizon, average-reward setting. In contrast to discrete-time MDPs, a continuous-time process moves to a state and stays there for a random holding time after an action is taken. With unknown transition probabilities and rates of exponential holding times, we derive instance-dependent regret lower bounds that are logarithmic in the time horizon. Moreover, we design a learning algorithm and establish a finite-time regret bound that achieves the logarithmic growth rate. Our analysis builds upon upper confidence reinforcement learning, a delicate estimation of the mean holding times, and stochastic comparison of point processes.
Abstract（参考訳）: 無限ホリゾン平均回帰設定における連続時間マルコフ決定過程(mdps)に対する強化学習を考える。離散時間MDPとは対照的に、連続時間プロセスは状態に移動し、アクションが実行された後にランダムに保持される。未知の遷移確率と指数的保持時間率により、時間地平線において対数的となるインスタンス依存の後悔の下限を導出する。さらに,学習アルゴリズムを設計し,対数成長率を達成する有限時間後悔境界を確立する。本分析は,高信頼度強化学習,平均保持時間の微妙な推定,点過程の確率的比較に基づく。

関連論文リスト

Regret and Sample Complexity of Online Q-Learning via Concentration of Stochastic Approximation with Time-Inhomogeneous Markov Chains [23.565936864449636]
無限水平割引マルコフ決定過程における古典的オンラインQ-ラーニングに対する最初の高い確率的後悔を示す。十分な大きなギャップでは、後悔はサブリニアであり、小さなギャップでは劣化し、線形成長に近づく。
論文参考訳（メタデータ） (2026-02-18T08:47:07Z)
Bridging Discrete and Continuous RL: Stable Deterministic Policy Gradient with Martingale Characterization [12.269012358096667]
離散時間アルゴリズムを連続時間設定に拡張する際の大きな課題は、時間離散化に対する感度である。連続時間強化学習のための決定論的政策勾配法を提案する。提案アルゴリズムは,従来の離散時間法や連続時間法と比較して,安定性と収束性を向上する。
論文参考訳（メタデータ） (2025-09-28T07:53:33Z)
Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning [55.197497603087065]
線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
論文参考訳（メタデータ） (2025-02-19T15:33:55Z)
On Bellman equations for continuous-time policy evaluation I: discretization and approximation [3.704688279256839]
本研究では,連続時間拡散過程の離散的に観測された軌道から値関数を計算する問題について検討する。離散時間強化学習と互換性のある,容易に実装可能な数値スキームに基づく新しいアルゴリズムのクラスを開発する。
論文参考訳（メタデータ） (2024-07-08T14:05:03Z)
An Idiosyncrasy of Time-discretization in Reinforcement Learning [7.085780872622857]
離散化の選択が強化学習アルゴリズムに与える影響について検討する。我々は離散時間アルゴリズムを離散化された連続時間環境に適用することで、慣用性を認めている。
論文参考訳（メタデータ） (2024-06-21T08:03:25Z)
Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文参考訳（メタデータ） (2024-06-17T02:56:55Z)
Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文参考訳（メタデータ） (2024-06-12T06:41:47Z)
Bridging discrete and continuous state spaces: Exploring the Ehrenfest process in time-continuous diffusion models [4.186575888568896]
離散状態空間上での時間連続マルコフジャンプ過程について検討する。エレンフェスト過程の時間反転は、時間反転するオルンシュタイン-ウレンベック過程に収束することを示す。
論文参考訳（メタデータ） (2024-05-06T15:12:51Z)
Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文参考訳（メタデータ） (2024-02-19T03:08:02Z)
Square-root regret bounds for continuous-time episodic Markov decision processes [11.585113506994471]
有限水平エピソード設定における連続時間マルコフ決定過程(MDP)の強化学習について検討した。本稿では,反復値と高信頼度境界に基づく学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-03T11:35:07Z)
Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文参考訳（メタデータ） (2022-05-30T18:40:28Z)
Contrastive learning of strong-mixing continuous-time stochastic processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。拡散の場合,小～中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文参考訳（メタデータ） (2021-03-03T23:06:47Z)
A Kernel-Based Approach to Non-Stationary Reinforcement Learning in Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文参考訳（メタデータ） (2020-07-09T21:37:13Z)
Logarithmic regret for episodic continuous-time linear-quadratic reinforcement learning over a finite-time horizon [7.123160883637873]
本研究では, 連続時間線形2次強化学習問題をエピソード環境下で研究する。連続時間観測と制御に基づく最小二乗アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-27T08:14:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。