Fugu-MT 論文翻訳(概要): A Kernel-Based Approach to Non-Stationary Reinforcement Learning in Metric Spaces

論文の概要: A Kernel-Based Approach to Non-Stationary Reinforcement Learning in Metric Spaces

arxiv url: http://arxiv.org/abs/2007.05078v2
Date: Wed, 23 Mar 2022 20:21:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-12 03:40:20.900236
Title: A Kernel-Based Approach to Non-Stationary Reinforcement Learning in Metric Spaces
Title（参考訳）: 計量空間における非定常強化学習へのカーネルベースアプローチ
Authors: Omar Darwiche Domingues, Pierre M\'enard, Matteo Pirotta, Emilie Kaufmann, Michal Valko
Abstract要約: KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
参考スコア（独自算出の注目度）: 53.47210316424326
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we propose KeRNS: an algorithm for episodic reinforcement learning in non-stationary Markov Decision Processes (MDPs) whose state-action set is endowed with a metric. Using a non-parametric model of the MDP built with time-dependent kernels, we prove a regret bound that scales with the covering dimension of the state-action space and the total variation of the MDP with time, which quantifies its level of non-stationarity. Our method generalizes previous approaches based on sliding windows and exponential discounting used to handle changing environments. We further propose a practical implementation of KeRNS, we analyze its regret and validate it experimentally.
Abstract（参考訳）: 本研究では,非定常マルコフ決定過程 (MDP) におけるエピソード強化学習アルゴリズムであるKeRNSを提案する。時間依存カーネルで構築されたMDPの非パラメトリックモデルを用いて、状態-作用空間の被覆次元と時間によるMDPの総変動にスケールする後悔境界を証明し、その非定常性のレベルを定量化する。本手法は,スライディングウインドウと環境変化の処理に用いられる指数関数的ディスカウントに基づいて,従来のアプローチを一般化する。我々はさらに,KeRNSの実践的実装を提案し,その後悔を分析し,実験的に検証する。

関連論文リスト

Nonparametric learning of covariate-based Markov jump processes using RKHS techniques [3.3005714301829148]
我々は、co変数を連続時間マルコフ連鎖(CTMC)にリンクするための新しい非パラメトリックアプローチを提案する。 CTMCは、臨床または行動状態の遷移をモデリングするための堅牢なフレームワークを提供する。一般化されたRepresenter Theoremを用いて、関数空間におけるトラクタブル推論を可能にする。
論文参考訳（メタデータ） (2025-05-06T02:26:02Z)
Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文参考訳（メタデータ） (2024-03-19T22:18:19Z)
Free-Form Variational Inference for Gaussian Process State-Space Models [21.644570034208506]
ベイズGPSSMにおける新しい推論法を提案する。本手法はハミルトニアンモンテカルロの誘導による自由形式変分推論に基づく。提案手法は, 競合する手法よりも, 遷移力学や潜伏状態をより正確に学習できることを示す。
論文参考訳（メタデータ） (2023-02-20T11:34:16Z)
STEERING: Stein Information Directed Exploration for Model-Based Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。 KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文参考訳（メタデータ） (2023-01-28T00:49:28Z)
FaDIn: Fast Discretized Inference for Hawkes Processes with General Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文参考訳（メタデータ） (2022-10-10T12:35:02Z)
Posterior Coreset Construction with Kernelized Stein Discrepancy for Model-Based Reinforcement Learning [78.30395044401321]
我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。連続的な制御環境では、壁時計の時間を最大50%削減することができる。
論文参考訳（メタデータ） (2022-06-02T17:27:49Z)
Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文参考訳（メタデータ） (2022-05-30T18:40:28Z)
Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文参考訳（メタデータ） (2021-11-19T16:12:30Z)
Variational Inference for Continuous-Time Switching Dynamical Systems [29.984955043675157]
従属拡散過程を変調したマルコフジャンプ過程に基づくモデルを提案する。我々は,新しい連続時間変動推定アルゴリズムを開発した。モデル仮定と実世界の実例に基づいて,我々のアルゴリズムを広範囲に評価する。
論文参考訳（メタデータ） (2021-09-29T15:19:51Z)
Continuous-Time Model-Based Reinforcement Learning [4.427447378048202]
本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
論文参考訳（メタデータ） (2021-02-09T11:30:19Z)
Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文参考訳（メタデータ） (2020-11-15T22:36:59Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。