論文の概要: Distributional Offline Policy Evaluation with Predictive Error
Guarantees
- arxiv url: http://arxiv.org/abs/2302.09456v1
- Date: Sun, 19 Feb 2023 02:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 18:27:34.344367
- Title: Distributional Offline Policy Evaluation with Predictive Error
Guarantees
- Title(参考訳): 予測誤差保証による分散オフラインポリシー評価
- Authors: Runzhe Wu, Masatoshi Uehara, Wen Sun
- Abstract要約: 本研究では,ポリシから生成されていないオフラインデータセットを用いて,ポリシの戻り値の分布を推定する問題について検討する。
本稿では,FLE(Fitted Likelihood Estimation)と呼ばれるアルゴリズムを提案する。
多次元報酬設定では、拡散モデルを持つFLEは、テストポリシの戻りの複雑な分布を推定することができる。
- 参考スコア(独自算出の注目度): 27.258438497804253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of estimating the distribution of the return of a policy
using an offline dataset that is not generated from the policy, i.e.,
distributional offline policy evaluation (OPE). We propose an algorithm called
Fitted Likelihood Estimation (FLE), which conducts a sequence of Maximum
Likelihood Estimation (MLE) problems and has the flexibility of integrating any
state-of-art probabilistic generative models as long as it can be trained via
MLE. FLE can be used for both finite horizon and infinite horizon discounted
settings where rewards can be multi-dimensional vectors. In our theoretical
results, we show that for both finite and infinite horizon discounted settings,
FLE can learn distributions that are close to the ground truth under total
variation distance and Wasserstein distance, respectively. Our theoretical
results hold under the conditions that the offline data covers the test
policy's traces and the supervised learning MLE procedures succeed.
Experimentally, we demonstrate the performance of FLE with two generative
models, Gaussian mixture models and diffusion models. For the multi-dimensional
reward setting, FLE with diffusion models is capable of estimating the
complicated distribution of the return of a test policy.
- Abstract(参考訳): 本研究では,ポリシから生成されていないオフラインデータセット,すなわち分散オフラインポリシ評価(OPE)を用いて,ポリシの戻り値の分布を推定する問題について検討する。
本稿では,FLEと呼ばれるアルゴリズムを提案する。このアルゴリズムは,最大同値推定(MLE)問題列を実行し,MLEを用いてトレーニングできる限り,最先端の確率的生成モデルを統合する柔軟性を有する。
FLEは有限地平線と無限地平線割引設定の両方に使用することができ、報酬は多次元ベクトルとなる。
理論的な結果から、有限地平線と無限地平線が割引された設定の両方において、FLEは総変分距離とワッサーシュタイン距離で基底真理に近い分布を学習できることを示した。
理論的な結果は,オフラインデータがテスト方針のトレースをカバーし,教師付き学習mle手続きが成功する条件下に存在する。
実験では,2つの生成モデル,ガウス混合モデルと拡散モデルを用いてFLEの性能を示す。
多次元報酬設定では、拡散モデルを持つFLEは、テストポリシの戻りの複雑な分布を推定することができる。
関連論文リスト
- A Likelihood Based Approach to Distribution Regression Using Conditional Deep Generative Models [6.647819824559201]
本研究では,条件付き深部生成モデルの推定のための可能性に基づくアプローチの大規模サンプル特性について検討する。
その結果,条件分布を推定するための最大極大推定器の収束率を導いた。
論文 参考訳(メタデータ) (2024-10-02T20:46:21Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Distributional Off-policy Evaluation with Bellman Residual Minimization [12.343981093497332]
配電型オフ政治評価(OPE)について検討する。
目標は、異なるポリシーによって生成されたオフラインデータを使用して、ターゲットポリシーに対するリターンの分布を学習することである。
我々はEnergy Bellman Residual Minimizer (EBRM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T20:59:29Z) - Diffusion models for probabilistic programming [56.47577824219207]
拡散モデル変分推論(DMVI)は確率型プログラミング言語(PPL)における自動近似推論手法である
DMVIは実装が容易で、例えば正規化フローを用いた変分推論の欠点を伴わずに、PPLでヘイズルフリー推論が可能であり、基礎となるニューラルネットワークモデルに制約を課さない。
論文 参考訳(メタデータ) (2023-11-01T12:17:05Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data [28.445166861907495]
我々は,TMISオフライン政策評価(OPE)推定器の理論を開発する。
我々は、その推定誤差に基づいて高確率、インスタンス依存境界を導出する。
また,適応環境での極小最適オフライン学習を復元する。
論文 参考訳(メタデータ) (2023-06-24T21:48:28Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - Posterior-Aided Regularization for Likelihood-Free Inference [23.708122045184698]
後補助正規化(PAR)は,モデル構造に関係なく,密度推定器の学習に適用可能である。
単一のニューラルネットワークを用いて逆KL項と相互情報項の両方を推定するPARの統一推定方法を提供する。
論文 参考訳(メタデータ) (2021-02-15T16:59:30Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。