論文の概要: Exponential Family Model-Based Reinforcement Learning via Score Matching
- arxiv url: http://arxiv.org/abs/2112.14195v1
- Date: Tue, 28 Dec 2021 15:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 14:44:37.331174
- Title: Exponential Family Model-Based Reinforcement Learning via Score Matching
- Title(参考訳): 指数モデルに基づくスコアマッチングによる強化学習
- Authors: Gene Li, Junbo Li, Nathan Srebro, Zhaoran Wang, Zhuoran Yang
- Abstract要約: 有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
- 参考スコア(独自算出の注目度): 97.31477125728844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an optimistic model-based algorithm, dubbed SMRL, for
finite-horizon episodic reinforcement learning (RL) when the transition model
is specified by exponential family distributions with $d$ parameters and the
reward is bounded and known. SMRL uses score matching, an unnormalized density
estimation technique that enables efficient estimation of the model parameter
by ridge regression. Under standard regularity assumptions, SMRL achieves
$\tilde O(d\sqrt{H^3T})$ online regret, where $H$ is the length of each episode
and $T$ is the total number of interactions (ignoring polynomial dependence on
structural scale parameters).
- Abstract(参考訳): パラメータが$d$の指数関数分布によって遷移モデルが特定され、報酬が有界かつ既知のとき、有限水平エピソディック強化学習(RL)のための楽観的なモデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
標準的な正規性仮定の下では、smrlは$\tilde o(d\sqrt{h^3t})$ online regret(ここで$h$は各エピソードの長さ、$t$は相互作用の総数(構造的スケールパラメータの多項式依存性を無視して)を達成する。
関連論文リスト
- Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z) - Prior-dependent analysis of posterior sampling reinforcement learning with function approximation [19.505117288012148]
この研究は、線形混合MDPをモデルとした関数近似を用いた強化学習(RL)におけるランダム化探索を推し進める。
機能近似を用いたRLに対する最初の事前依存型ベイズ後悔法を確立し, 後方サンプリング強化学習(PSRL)のためのベイズ後悔解析を洗練させる。
上限は$mathcalO(dsqrtH3 T log T)$で、$d$は遷移カーネルの次元を表し、$H$は計画地平線、$T$は相互作用の総数を表す。
論文 参考訳(メタデータ) (2024-03-17T11:23:51Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Model-Based Reinforcement Learning with Multinomial Logistic Function Approximation [10.159501412046508]
マルコフ決定過程(MDP)におけるモデルベース強化学習(RL)について検討する。
我々は,多項ロジスティックモデルにより状態遷移が与えられるMPPに対して,証明可能な効率のよいRLアルゴリズムを確立する。
我々の知る限りでは、証明可能な保証付き多項ロジスティック関数近似を用いたモデルベースRLアルゴリズムとしてはこれが初めてである。
論文 参考訳(メタデータ) (2022-12-27T16:25:09Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Model-based Reinforcement Learning for Continuous Control with Posterior
Sampling [10.91557009257615]
連続状態空間における強化学習(PSRL)のためのモデルベース後方サンプリングについて検討した。
MPC-PSRLはモデルに基づく後部サンプリングアルゴリズムであり,行動選択のためのモデル予測制御を行う。
論文 参考訳(メタデータ) (2020-11-20T21:00:31Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。