論文の概要: Improving Monte Carlo Evaluation with Offline Data
- arxiv url: http://arxiv.org/abs/2301.13734v2
- Date: Thu, 23 Mar 2023 16:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 17:22:39.149955
- Title: Improving Monte Carlo Evaluation with Offline Data
- Title(参考訳): オフラインデータによるモンテカルロ評価の改善
- Authors: Shuze Liu, Shangtong Zhang
- Abstract要約: モンテカルロ (MC) の手法は、関心のある政策を前提として、この方針を繰り返し実行し、サンプルを収集し、結果の平均を採点することで見積を行う。
正確な推定を得るために、MCメソッドは大量のオンラインサンプルを消費する。
我々は、行動政策と呼ばれる異なる政策を実行することによって、関心のある政策を評価する、政治以外のMC手法を用いる。
- 参考スコア(独自算出の注目度): 23.297137490591382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte Carlo (MC) methods are the most widely used methods to estimate the
performance of a policy. Given an interested policy, MC methods give estimates
by repeatedly running this policy to collect samples and taking the average of
the outcomes. Samples collected during this process are called online samples.
To get an accurate estimate, MC methods consume massive online samples. When
online samples are expensive, e.g., online recommendations and inventory
management, we want to reduce the number of online samples while achieving the
same estimate accuracy. To this end, we use off-policy MC methods that evaluate
the interested policy by running a different policy called behavior policy. We
design a tailored behavior policy such that the variance of the off-policy MC
estimator is provably smaller than the ordinary MC estimator. Importantly, this
tailored behavior policy can be efficiently learned from existing offline data,
i,e., previously logged data, which are much cheaper than online samples. With
reduced variance, our off-policy MC method requires fewer online samples to
evaluate the performance of a policy compared with the ordinary MC method.
Moreover, our off-policy MC estimator is always unbiased.
- Abstract(参考訳): モンテカルロ法(MC法、Monte Carlo method)は、政策の性能を推定する最も広く用いられる方法である。
興味のあるポリシーが与えられると、mcメソッドは、このポリシーを繰り返し実行してサンプルを収集し、結果の平均を取ることで、見積もりを与える。
この過程で収集されたサンプルはオンラインサンプルと呼ばれる。
正確な推定を得るために、MCメソッドは大量のオンラインサンプルを消費する。
オンラインサンプルが高価である場合、例えばオンラインレコメンデーションや在庫管理などでは、オンラインサンプルの数を減らすとともに、同じ推定精度を達成したい。
この目的のために、我々は行動ポリシーと呼ばれる異なるポリシーを実行することによって、関心のあるポリシーを評価するオフ・ポリシーmc手法を用いる。
我々は、オフポリチックMC推定器の分散が通常のMC推定器よりも確実に小さいように調整された行動ポリシーを設計する。
重要なのは、このカスタマイズされた行動ポリシーは、既存のオフラインデータから効率的に学習できることだ。
これはオンラインのサンプルよりずっと安価だ。
ばらつきが小さくなると、通常のMC法と比較して、政策の評価にオンラインサンプルが少なくなる。
さらに、我々の政界外のMC推定器は常に偏りがない。
関連論文リスト
- $Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies [13.528097424046823]
Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。
シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-05-16T12:04:55Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z) - Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior
Policies [3.855085732184416]
オフ政治評価は、行動ポリシーから収集されたオフラインデータを用いて目標ポリシーを評価する強化学習の鍵となる要素である。
本稿では,異なる行動ポリシーによって生成された推定器を正しく混合する方法について論じる。
シミュレーションリコメンデータシステムの実験から,提案手法は推定平均二乗誤差を低減するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-11-29T12:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。