論文の概要: A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.10904v1
- Date: Tue, 23 Aug 2022 12:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 13:38:31.436185
- Title: A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning
- Title(参考訳): エピソード強化学習のための確率的モデルフリー後部サンプリング法
- Authors: Christoph Dann, Mehryar Mohri, Tong Zhang, Julian Zimmert
- Abstract要約: 強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
- 参考スコア(独自算出の注目度): 50.910152564914405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson Sampling is one of the most effective methods for contextual bandits
and has been generalized to posterior sampling for certain MDP settings.
However, existing posterior sampling methods for reinforcement learning are
limited by being model-based or lack worst-case theoretical guarantees beyond
linear MDPs. This paper proposes a new model-free formulation of posterior
sampling that applies to more general episodic reinforcement learning problems
with theoretical guarantees. We introduce novel proof techniques to show that
under suitable conditions, the worst-case regret of our posterior sampling
method matches the best known results of optimization based methods. In the
linear MDP setting with dimension, the regret of our algorithm scales linearly
with the dimension as compared to a quadratic dependence of the existing
posterior sampling-based exploration algorithms.
- Abstract(参考訳): トンプソンサンプリングは文脈的包帯の最も効果的な手法の1つであり、特定のMDP設定の後方サンプリングに一般化されている。
しかし、強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限されている。
本稿では,より一般のエピソジック強化学習問題に適用可能な,新しいモデルフリーな後方サンプリング法を提案する。
提案手法は, 最適条件下では, 後方サンプリング手法の最悪の後悔が最適化手法の最もよく知られた結果と一致することを示す。
次元を持つ線形mdp設定では、既存の後方サンプリングに基づく探索アルゴリズムの二次依存性と比較して、アルゴリズムの後悔は次元と線形にスケールする。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Improving Diffusion Models for Inverse Problems Using Optimal Posterior Covariance [52.093434664236014]
近年の拡散モデルは、特定の逆問題に対して再訓練することなく、ノイズの多い線形逆問題に対する有望なゼロショット解を提供する。
この発見に触発されて、我々は、最大推定値から決定されるより原理化された共分散を用いて、最近の手法を改善することを提案する。
論文 参考訳(メタデータ) (2024-02-03T13:35:39Z) - On Sample-Efficient Offline Reinforcement Learning: Data Diversity,
Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。
オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-06T20:52:04Z) - Solving Linear Inverse Problems Provably via Posterior Sampling with
Latent Diffusion Models [98.95988351420334]
本稿では,事前学習した潜在拡散モデルを利用した線形逆問題の解法を初めて提案する。
線形モデル設定において,証明可能なサンプル回復を示すアルゴリズムを理論的に解析する。
論文 参考訳(メタデータ) (2023-07-02T17:21:30Z) - Posterior Sampling for Deep Reinforcement Learning [0.0]
本稿では, 深層強化学習のための後方サンプリング (PSDRL) について紹介する。
Atariベンチマークの実験では、PSDRLは後方サンプリングをスケールアップする従来の最先端の試行を著しく上回っている。
論文 参考訳(メタデータ) (2023-04-30T13:23:50Z) - Plug-and-Play split Gibbs sampler: embedding deep generative priors in
Bayesian inference [12.91637880428221]
本稿では, 後方分布から効率的にサンプリングするために, 可変分割を利用したプラグアンドプレイサンプリングアルゴリズムを提案する。
後方サンプリングの課題を2つの単純なサンプリング問題に分割する。
その性能は最近の最先端の最適化とサンプリング手法と比較される。
論文 参考訳(メタデータ) (2023-04-21T17:17:51Z) - Model Agnostic Sample Reweighting for Out-of-Distribution Learning [38.843552982739354]
我々は,OOD問題に効果的に対応するために,基本的手法であるtextbfAgnostic SamtextbfPLe rtextbfEweighting (textbfMAPLE)を提案する。
我々のキーとなる考え方は、トレーニングサンプルを効果的に再重み付けすることで、大規模モデルの標準的な経験的リスク最小化トレーニングがOOD一般化性能に優れたものとなるようにすることである。
論文 参考訳(メタデータ) (2023-01-24T05:11:03Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z) - Robust Q-learning [0.0]
データ適応手法を用いてニュアンスパラメータを推定できる頑健なQ-ラーニング手法を提案する。
本研究は,提案手法の必要性と有用性を明らかにするためのシミュレーション研究である。
論文 参考訳(メタデータ) (2020-03-27T14:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。