論文の概要: Exponential Family Model-Based Reinforcement Learning via Score Matching
- arxiv url: http://arxiv.org/abs/2112.14195v1
- Date: Tue, 28 Dec 2021 15:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 14:44:37.331174
- Title: Exponential Family Model-Based Reinforcement Learning via Score Matching
- Title(参考訳): 指数モデルに基づくスコアマッチングによる強化学習
- Authors: Gene Li, Junbo Li, Nathan Srebro, Zhaoran Wang, Zhuoran Yang
- Abstract要約: 有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
- 参考スコア(独自算出の注目度): 97.31477125728844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an optimistic model-based algorithm, dubbed SMRL, for
finite-horizon episodic reinforcement learning (RL) when the transition model
is specified by exponential family distributions with $d$ parameters and the
reward is bounded and known. SMRL uses score matching, an unnormalized density
estimation technique that enables efficient estimation of the model parameter
by ridge regression. Under standard regularity assumptions, SMRL achieves
$\tilde O(d\sqrt{H^3T})$ online regret, where $H$ is the length of each episode
and $T$ is the total number of interactions (ignoring polynomial dependence on
structural scale parameters).
- Abstract(参考訳): パラメータが$d$の指数関数分布によって遷移モデルが特定され、報酬が有界かつ既知のとき、有限水平エピソディック強化学習(RL)のための楽観的なモデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
標準的な正規性仮定の下では、smrlは$\tilde o(d\sqrt{h^3t})$ online regret(ここで$h$は各エピソードの長さ、$t$は相互作用の総数(構造的スケールパラメータの多項式依存性を無視して)を達成する。
関連論文リスト
- Model-Based Reinforcement Learning with Multinomial Logistic Function
Approximation [12.36108042107798]
マルコフ決定過程におけるモデルに基づく強化学習について検討する。
我々は,多項ロジスティックモデルにより状態遷移が与えられるMPPに対して,証明可能な効率のよいRLアルゴリズムを確立する。
本稿では,提案アルゴリズムが既存の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-12-27T16:25:09Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [88.6139446295537]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [65.09383385484007]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning [78.30395044401321]
本稿では,新しい$bf K$ernelized $bf S$tein Discrepancy-based Posterior Smpling for $bf RL$アルゴリズムを提案する。
我々は滑らかさやガウス的仮定の必要性を緩和し、複雑な混合モデルを可能にする。
我々はまた、積分確率測定値に基づくPSRLの新たな後悔分析法を開発した。
論文 参考訳(メタデータ) (2022-06-02T17:27:49Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Model-based Reinforcement Learning for Continuous Control with Posterior
Sampling [10.91557009257615]
連続状態空間における強化学習(PSRL)のためのモデルベース後方サンプリングについて検討した。
MPC-PSRLはモデルに基づく後部サンプリングアルゴリズムであり,行動選択のためのモデル予測制御を行う。
論文 参考訳(メタデータ) (2020-11-20T21:00:31Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。