論文の概要: Model-based RL with Optimistic Posterior Sampling: Structural Conditions
and Sample Complexity
- arxiv url: http://arxiv.org/abs/2206.07659v1
- Date: Wed, 15 Jun 2022 16:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 14:07:59.113742
- Title: Model-based RL with Optimistic Posterior Sampling: Structural Conditions
and Sample Complexity
- Title(参考訳): 最適後部サンプリングを用いたモデルベースRL:構造条件とサンプル複雑度
- Authors: Alekh Agarwal and Tong Zhang
- Abstract要約: 提案アルゴリズムは,Hellinger距離に基づく条件付き確率推定における後悔を減らすことで解析可能であることを示す。
さらに、データ確率によるモデル誤差の測定において、楽観的な後部サンプリングがヘリンジャー距離を制御可能であることを示す。
- 参考スコア(独自算出の注目度): 38.30154154957721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a general framework to design posterior sampling methods for
model-based RL. We show that the proposed algorithms can be analyzed by
reducing regret to Hellinger distance based conditional probability estimation.
We further show that optimistic posterior sampling can control this Hellinger
distance, when we measure model error via data likelihood. This technique
allows us to design and analyze unified posterior sampling algorithms with
state-of-the-art sample complexity guarantees for many model-based RL settings.
We illustrate our general result in many special cases, demonstrating the
versatility of our framework.
- Abstract(参考訳): モデルベースRLの後方サンプリング手法を設計するための一般的な枠組みを提案する。
提案アルゴリズムは,Hellinger距離に基づく条件付き確率推定における後悔を減らすことで解析可能であることを示す。
さらに, 楽観的な後方サンプリングは, モデル誤差をデータ確率で測定することで, このヘリンガー距離を制御できることを示した。
この手法により、多くのモデルベースRL設定に対して、最先端のサンプル複雑度保証を伴う統合後サンプリングアルゴリズムの設計と解析が可能となる。
フレームワークの汎用性を実証し、多くの特別なケースで一般的な結果を説明します。
関連論文リスト
- A Diffusion Model Framework for Unsupervised Neural Combinatorial Optimization [7.378582040635655]
現在のディープラーニングアプローチは、正確なサンプル確率を生み出す生成モデルに依存している。
この研究は、この制限を解除し、高度に表現力のある潜在変数モデルを採用する可能性を開放する手法を導入する。
我々は,データフリーなコンビネーション最適化におけるアプローチを実験的に検証し,幅広いベンチマーク問題に対して新しい最先端の手法を実現することを実証した。
論文 参考訳(メタデータ) (2024-06-03T17:55:02Z) - Predicting Ordinary Differential Equations with Transformers [65.07437364102931]
単一溶液軌道の不規則サンプリングおよび雑音観測から,スカラー常微分方程式(ODE)を記号形式で復元するトランスフォーマーに基づくシーケンス・ツー・シーケンス・モデルを開発した。
提案手法は, 1回に一度, ODE の大規模な事前訓練を行った後, モデルのいくつかの前方通過において, 新たな観測解の法則を推測することができる。
論文 参考訳(メタデータ) (2023-07-24T08:46:12Z) - Solving Linear Inverse Problems Provably via Posterior Sampling with
Latent Diffusion Models [98.95988351420334]
本稿では,事前学習した潜在拡散モデルを利用した線形逆問題の解法を初めて提案する。
線形モデル設定において,証明可能なサンプル回復を示すアルゴリズムを理論的に解析する。
論文 参考訳(メタデータ) (2023-07-02T17:21:30Z) - On the Sample Complexity of Vanilla Model-Based Offline Reinforcement
Learning with Dependent Samples [32.707730631343416]
オフライン強化学習(オフラインRL)は、以前に収集したサンプルのみを用いて学習を行う問題を考える。
モデルベースオフラインRLでは、学習者は経験的遷移に応じて構築されたモデルを用いて推定(または最適化)を行う。
本研究では,バニラモデルに基づくオフラインRLのサンプル複雑性を無限水平ディスカウント・リワード設定における依存サンプルを用いて解析する。
論文 参考訳(メタデータ) (2023-03-07T22:39:23Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - A Unified Framework for Estimation of High-dimensional Conditional
Factor Models [0.0]
本稿では,核ノルム正規化による高次元条件因子モデル推定のための一般的な枠組みを開発する。
推定器の大規模なサンプル特性を確立し、推定器を見つけるための効率的な計算アルゴリズムを提供する。
そこで本手法を適用して,各米国株の収益率の断面分析を行い,同質性を付与することで,モデル外乱予測可能性の向上が期待できることを示した。
論文 参考訳(メタデータ) (2022-09-01T12:10:29Z) - A Provably Efficient Model-Free Posterior Sampling Method for Episodic
Reinforcement Learning [50.910152564914405]
強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限される。
本稿では,理論的保証を伴うより一般的な補足的強化学習問題に適用可能な,後部サンプリングのモデルフリーな新しい定式化を提案する。
論文 参考訳(メタデータ) (2022-08-23T12:21:01Z) - Approximate Bayesian inference from noisy likelihoods with Gaussian
process emulated MCMC [0.24275655667345403]
ガウス過程(GP)を用いた対数様関数をモデル化する。
主な方法論的革新は、正確なメトロポリス・ハスティングス(MH)サンプリングが行う進歩をエミュレートするためにこのモデルを適用することである。
得られた近似サンプリング器は概念的には単純で、試料効率が高い。
論文 参考訳(メタデータ) (2021-04-08T17:38:02Z) - Revisiting the Sample Complexity of Sparse Spectrum Approximation of
Gaussian Processes [60.479499225746295]
本稿では,ガウス過程に対して,パラメータ空間全体に対して同時に保持可能な保証付きスケーラブルな近似を導入する。
我々の近似は、スパーススペクトルガウス過程(SSGP)のための改良されたサンプル複雑性解析から得られる。
論文 参考訳(メタデータ) (2020-11-17T05:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。