論文の概要: Kernel-Based Reinforcement Learning: A Finite-Time Analysis
- arxiv url: http://arxiv.org/abs/2004.05599v3
- Date: Wed, 23 Mar 2022 18:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 05:04:28.643072
- Title: Kernel-Based Reinforcement Learning: A Finite-Time Analysis
- Title(参考訳): カーネルベース強化学習 : 有限時間解析
- Authors: Omar Darwiche Domingues, Pierre M\'enard, Matteo Pirotta, Emilie
Kaufmann, Michal Valko
- Abstract要約: モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
- 参考スコア(独自算出の注目度): 53.47210316424326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the exploration-exploitation dilemma in finite-horizon
reinforcement learning problems whose state-action space is endowed with a
metric. We introduce Kernel-UCBVI, a model-based optimistic algorithm that
leverages the smoothness of the MDP and a non-parametric kernel estimator of
the rewards and transitions to efficiently balance exploration and
exploitation. For problems with $K$ episodes and horizon $H$, we provide a
regret bound of $\widetilde{O}\left( H^3 K^{\frac{2d}{2d+1}}\right)$, where $d$
is the covering dimension of the joint state-action space. This is the first
regret bound for kernel-based RL using smoothing kernels, which requires very
weak assumptions on the MDP and has been previously applied to a wide range of
tasks. We empirically validate our approach in continuous MDPs with sparse
rewards.
- Abstract(参考訳): 状態作用空間に計量を付与する有限ホリゾン強化学習問題における探索探索ジレンマを考える。
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入し、MDPの滑らかさと、報酬と遷移の非パラメトリックカーネル推定器を用いて探索と利用の効率よくバランスをとる。
K$ エピソードと地平線$H$ の問題に対して、$\widetilde{O}\left(H^3 K^{\frac{2d}{2d+1}}\right)$ の後悔境界を与える。
これはスムーズなカーネルを用いたカーネルベースのRLに対する最初の後悔であり、MDPに非常に弱い仮定が必要であり、これまで幅広いタスクに応用されてきた。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
関連論文リスト
- Learning Adversarial Low-rank Markov Decision Processes with Unknown
Transition and Full-information Feedback [30.23951525723659]
本研究は,全情報フィードバック設定において,逆向きに損失が変化する低ランクMDPについて検討する。
政策最適化に基づくアルゴリズムPOLOを提案し、$widetildeO(Kfrac56Afrac12dln (1+M)/ (1-gamma)2)$ regret guarantee。
論文 参考訳(メタデータ) (2023-11-14T03:12:43Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Restricted Strong Convexity of Deep Learning Models with Smooth
Activations [31.003601717265006]
本研究では,スムーズなアクティベーション機能を持つディープラーニングモデルの最適化問題について検討する。
Restricted Strong Convexity (RSC) に基づく最適化の新しい解析手法を提案する。
深層学習モデルのためのRCCに基づくGDの幾何収束性を確立するための最初の結果である。
論文 参考訳(メタデータ) (2022-09-29T21:24:26Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Value Function Approximations via Kernel Embeddings for No-Regret
Reinforcement Learning [10.828727066443909]
我々は,CME-RLというオンラインモデルに基づくRLアルゴリズムを提案し,Hilbert空間への埋め込みとして遷移分布の表現を学習する。
絶対定数と多対数係数のみを隠蔽する次数$tildeObig(Hgamma_NsqrtNbig)$footnote $tildeO(cdot)$の頻繁な(Worst-case)後悔境界を証明してアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2020-11-16T11:40:55Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。