論文の概要: A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces
- arxiv url: http://arxiv.org/abs/2007.05078v2
- Date: Wed, 23 Mar 2022 20:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:40:20.900236
- Title: A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces
- Title(参考訳): 計量空間における非定常強化学習へのカーネルベースアプローチ
- Authors: Omar Darwiche Domingues, Pierre M\'enard, Matteo Pirotta, Emilie
Kaufmann, Michal Valko
- Abstract要約: KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
- 参考スコア(独自算出の注目度): 53.47210316424326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose KeRNS: an algorithm for episodic reinforcement
learning in non-stationary Markov Decision Processes (MDPs) whose state-action
set is endowed with a metric. Using a non-parametric model of the MDP built
with time-dependent kernels, we prove a regret bound that scales with the
covering dimension of the state-action space and the total variation of the MDP
with time, which quantifies its level of non-stationarity. Our method
generalizes previous approaches based on sliding windows and exponential
discounting used to handle changing environments. We further propose a
practical implementation of KeRNS, we analyze its regret and validate it
experimentally.
- Abstract(参考訳): 本研究では,非定常マルコフ決定過程 (MDP) におけるエピソード強化学習アルゴリズムであるKeRNSを提案する。
時間依存カーネルで構築されたMDPの非パラメトリックモデルを用いて、状態-作用空間の被覆次元と時間によるMDPの総変動にスケールする後悔境界を証明し、その非定常性のレベルを定量化する。
本手法は,スライディングウインドウと環境変化の処理に用いられる指数関数的ディスカウントに基づいて,従来のアプローチを一般化する。
我々はさらに,KeRNSの実践的実装を提案し,その後悔を分析し,実験的に検証する。
関連論文リスト
- Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Free-Form Variational Inference for Gaussian Process State-Space Models [21.644570034208506]
ベイズGPSSMにおける新しい推論法を提案する。
本手法はハミルトニアンモンテカルロの誘導による自由形式変分推論に基づく。
提案手法は, 競合する手法よりも, 遷移力学や潜伏状態をより正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-02-20T11:34:16Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning [78.30395044401321]
我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。
ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。
連続的な制御環境では、壁時計の時間を最大50%削減することができる。
論文 参考訳(メタデータ) (2022-06-02T17:27:49Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Variational Inference for Continuous-Time Switching Dynamical Systems [29.984955043675157]
従属拡散過程を変調したマルコフジャンプ過程に基づくモデルを提案する。
我々は,新しい連続時間変動推定アルゴリズムを開発した。
モデル仮定と実世界の実例に基づいて,我々のアルゴリズムを広範囲に評価する。
論文 参考訳(メタデータ) (2021-09-29T15:19:51Z) - Continuous-Time Model-Based Reinforcement Learning [4.427447378048202]
本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。
我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
論文 参考訳(メタデータ) (2021-02-09T11:30:19Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。