論文の概要: A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces
- arxiv url: http://arxiv.org/abs/2007.05078v2
- Date: Wed, 23 Mar 2022 20:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:40:20.900236
- Title: A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces
- Title(参考訳): 計量空間における非定常強化学習へのカーネルベースアプローチ
- Authors: Omar Darwiche Domingues, Pierre M\'enard, Matteo Pirotta, Emilie
Kaufmann, Michal Valko
- Abstract要約: KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
- 参考スコア(独自算出の注目度): 53.47210316424326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose KeRNS: an algorithm for episodic reinforcement
learning in non-stationary Markov Decision Processes (MDPs) whose state-action
set is endowed with a metric. Using a non-parametric model of the MDP built
with time-dependent kernels, we prove a regret bound that scales with the
covering dimension of the state-action space and the total variation of the MDP
with time, which quantifies its level of non-stationarity. Our method
generalizes previous approaches based on sliding windows and exponential
discounting used to handle changing environments. We further propose a
practical implementation of KeRNS, we analyze its regret and validate it
experimentally.
- Abstract(参考訳): 本研究では,非定常マルコフ決定過程 (MDP) におけるエピソード強化学習アルゴリズムであるKeRNSを提案する。
時間依存カーネルで構築されたMDPの非パラメトリックモデルを用いて、状態-作用空間の被覆次元と時間によるMDPの総変動にスケールする後悔境界を証明し、その非定常性のレベルを定量化する。
本手法は,スライディングウインドウと環境変化の処理に用いられる指数関数的ディスカウントに基づいて,従来のアプローチを一般化する。
我々はさらに,KeRNSの実践的実装を提案し,その後悔を分析し,実験的に検証する。
関連論文リスト
- Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field
and Online Inference [50.91823345296243]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Free-Form Variational Inference for Gaussian Process State-Space Models [21.644570034208506]
ベイズGPSSMにおける新しい推論法を提案する。
本手法はハミルトニアンモンテカルロの誘導による自由形式変分推論に基づく。
提案手法は, 競合する手法よりも, 遷移力学や潜伏状態をより正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-02-20T11:34:16Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning [78.30395044401321]
我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。
ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。
連続的な制御環境では、壁時計の時間を最大50%削減することができる。
論文 参考訳(メタデータ) (2022-06-02T17:27:49Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Online Time Series Anomaly Detection with State Space Gaussian Processes [12.483273106706623]
R-ssGPFAは、一様および多変量時系列の教師なしオンライン異常検出モデルである。
高次元時系列に対して、時系列の一般的な潜伏過程を特定するためにガウス過程因子解析の拡張を提案する。
異常観測時にカルマン更新をスキップすることで,モデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2022-01-18T06:43:32Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Variational Inference for Continuous-Time Switching Dynamical Systems [29.984955043675157]
従属拡散過程を変調したマルコフジャンプ過程に基づくモデルを提案する。
我々は,新しい連続時間変動推定アルゴリズムを開発した。
モデル仮定と実世界の実例に基づいて,我々のアルゴリズムを広範囲に評価する。
論文 参考訳(メタデータ) (2021-09-29T15:19:51Z) - Continuous-Time Model-Based Reinforcement Learning [4.427447378048202]
本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。
我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
論文 参考訳(メタデータ) (2021-02-09T11:30:19Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。