Fugu-MT 論文翻訳(概要): Prior-dependent analysis of posterior sampling reinforcement learning with function approximation

論文の概要: Prior-dependent analysis of posterior sampling reinforcement learning with function approximation

arxiv url: http://arxiv.org/abs/2403.11175v1
Date: Sun, 17 Mar 2024 11:23:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 18:15:50.848972
Title: Prior-dependent analysis of posterior sampling reinforcement learning with function approximation
Title（参考訳）: 関数近似を用いた後方サンプリング強化学習の事前依存解析
Authors: Yingru Li, Zhi-Quan Luo,
Abstract要約: この研究は、線形混合MDPをモデルとした関数近似を用いた強化学習(RL)におけるランダム化探索を推し進める。機能近似を用いたRLに対する最初の事前依存型ベイズ後悔法を確立し, 後方サンプリング強化学習(PSRL)のためのベイズ後悔解析を洗練させる。上限は$mathcalO(dsqrtH3 T log T)$で、$d$は遷移カーネルの次元を表し、$H$は計画地平線、$T$は相互作用の総数を表す。
参考スコア（独自算出の注目度）: 19.505117288012148
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work advances randomized exploration in reinforcement learning (RL) with function approximation modeled by linear mixture MDPs. We establish the first prior-dependent Bayesian regret bound for RL with function approximation; and refine the Bayesian regret analysis for posterior sampling reinforcement learning (PSRL), presenting an upper bound of ${\mathcal{O}}(d\sqrt{H^3 T \log T})$, where $d$ represents the dimensionality of the transition kernel, $H$ the planning horizon, and $T$ the total number of interactions. This signifies a methodological enhancement by optimizing the $\mathcal{O}(\sqrt{\log T})$ factor over the previous benchmark (Osband and Van Roy, 2014) specified to linear mixture MDPs. Our approach, leveraging a value-targeted model learning perspective, introduces a decoupling argument and a variance reduction technique, moving beyond traditional analyses reliant on confidence sets and concentration inequalities to formalize Bayesian regret bounds more effectively.
Abstract（参考訳）: この研究は、線形混合MDPをモデルとした関数近似を用いた強化学習(RL)におけるランダム化探索を推し進める。関数近似によるRLに対する最初の事前依存型ベイズ的後悔法を確立し、後方サンプリング強化学習(PSRL)のためのベイズ的後悔法を洗練し、${\mathcal{O}}(d\sqrt{H^3 T \log T})$の上限を示し、$d$は遷移核の次元を表し、$H$は計画的地平線、$T$は相互作用の総数を表す。これは、線形混合 MDP に指定された前のベンチマーク (Osband と Van Roy, 2014) よりも $\mathcal{O}(\sqrt{\log T})$ factor を最適化することで、方法論的拡張を示す。提案手法は, ベイズ的遺言境界をより効果的に定式化するために, 信頼度と集中不等式に依存する従来の分析を超越した, 疎結合論法と分散還元法を導入する。

関連論文リスト

Benefits of Learning Rate Annealing for Tuning-Robustness in Stochastic Optimization [29.174036532175855]
勾配法における学習速度は、標準グリッドサーチによるチューニングに費用がかかることで悪名高い超特異性である。我々は,広く使用されているコサインスケジュールなど,学習率を0に低下させる学習速度アニール方式の理論的利点を同定する。
論文参考訳（メタデータ） (2025-03-12T14:06:34Z)
A Finite-Sample Analysis of an Actor-Critic Algorithm for Mean-Variance Optimization in a Discounted MDP [1.0923877073891446]
政策評価のために線形関数近似(LFA)を用いた時間差分学習アルゴリズムを解析する。我々は、(i) を平均二乗の意味で保持し、(ii) を尾の反復平均化の下で高い確率で導く有限サンプル境界を導出する。これらの結果は、強化学習におけるリスクに敏感なアクター批判法に対する有限サンプル理論的保証を確立する。
論文参考訳（メタデータ） (2024-06-12T05:49:53Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文参考訳（メタデータ） (2023-05-29T17:11:28Z)
Model-Based Reinforcement Learning with Multinomial Logistic Function Approximation [10.159501412046508]
マルコフ決定過程(MDP)におけるモデルベース強化学習(RL)について検討する。我々は,多項ロジスティックモデルにより状態遷移が与えられるMPPに対して,証明可能な効率のよいRLアルゴリズムを確立する。我々の知る限りでは、証明可能な保証付き多項ロジスティック関数近似を用いたモデルベースRLアルゴリズムとしてはこれが初めてである。
論文参考訳（メタデータ） (2022-12-27T16:25:09Z)
Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。 SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文参考訳（メタデータ） (2021-12-28T15:51:07Z)
Model-based Reinforcement Learning for Continuous Control with Posterior Sampling [10.91557009257615]
連続状態空間における強化学習(PSRL)のためのモデルベース後方サンプリングについて検討した。 MPC-PSRLはモデルに基づく後部サンプリングアルゴリズムであり,行動選択のためのモデル予測制御を行う。
論文参考訳（メタデータ） (2020-11-20T21:00:31Z)
Tight Nonparametric Convergence Rates for Stochastic Gradient Descent under the Noiseless Linear Model [0.0]
このモデルに基づく最小二乗リスクに対する1パス, 固定段差勾配勾配の収束度を解析した。特殊な場合として、ランダムなサンプリング点における値のノイズのない観測から単位区間上の実関数を推定するオンラインアルゴリズムを解析する。
論文参考訳（メタデータ） (2020-06-15T08:25:50Z)
Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文参考訳（メタデータ） (2020-05-21T17:36:09Z)
Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文参考訳（メタデータ） (2020-03-02T05:02:23Z)
Non-asymptotic Convergence of Adam-type Reinforcement Learning Algorithms under Markovian Sampling [56.394284787780364]
本稿では、ポリシー勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して、最初の理論的収束解析を行う。一般の非線形関数近似の下では、PG-AMSGradは定常点の近傍に収束し、$mathcalO(log T/sqrtT)$である。線形関数近似の下では、一定段階のTD-AMSGradは$mathcalO(log T/sqrtT)の速度で大域的最適化の近傍に収束する。
論文参考訳（メタデータ） (2020-02-15T00:26:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。