論文の概要: Off-Policy Evaluation for Large Action Spaces via Policy Convolution
- arxiv url: http://arxiv.org/abs/2310.15433v1
- Date: Tue, 24 Oct 2023 01:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:01:05.099542
- Title: Off-Policy Evaluation for Large Action Spaces via Policy Convolution
- Title(参考訳): 政策畳み込みによる大規模行動空間のオフポリシー評価
- Authors: Noveen Sachdeva, Lequn Wang, Dawen Liang, Nathan Kallus, Julian
McAuley
- Abstract要約: ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
- 参考スコア(独自算出の注目度): 60.6953713877886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing accurate off-policy estimators is crucial for both evaluating and
optimizing for new policies. The main challenge in off-policy estimation is the
distribution shift between the logging policy that generates data and the
target policy that we aim to evaluate. Typically, techniques for correcting
distribution shift involve some form of importance sampling. This approach
results in unbiased value estimation but often comes with the trade-off of high
variance, even in the simpler case of one-step contextual bandits. Furthermore,
importance sampling relies on the common support assumption, which becomes
impractical when the action space is large. To address these challenges, we
introduce the Policy Convolution (PC) family of estimators. These methods
leverage latent structure within actions -- made available through action
embeddings -- to strategically convolve the logging and target policies. This
convolution introduces a unique bias-variance trade-off, which can be
controlled by adjusting the amount of convolution. Our experiments on synthetic
and benchmark datasets demonstrate remarkable mean squared error (MSE)
improvements when using PC, especially when either the action space or policy
mismatch becomes large, with gains of up to 5 - 6 orders of magnitude over
existing estimators.
- Abstract(参考訳): 正確なオフポリシー推定器の開発は、新しいポリシーの評価と最適化の両方に不可欠である。
オフポリシー推定の主な課題は、データを生成するロギングポリシーと、我々が評価しようとしているターゲットポリシーの分散シフトである。
通常、分布シフトを補正する技術は、ある種の重要サンプリングを含む。
このアプローチは偏りのない値推定をもたらすが、ワンステップのコンテキストバンディットの単純な場合であっても、しばしば高い分散のトレードオフを伴う。
さらに、重要サンプリングは、アクションスペースが大きいと非現実的になる共通のサポート仮定に依存する。
これらの課題に対処するために、我々は、予測者の政策転換(PC)ファミリーを紹介する。
これらのメソッドは、アクション内の潜在構造 -- アクション埋め込みを通じて利用可能 -- を利用して、ログとターゲットポリシーを戦略的に畳み込みます。
この畳み込みは、畳み込み量を調整することで制御できるユニークなバイアス分散トレードオフをもたらす。
筆者らは,PCを用いた場合,特に行動空間や政策ミスマッチが大きくなり,既存の推定値よりも最大5~6桁の精度で,平均二乗誤差(MSE)が顕著に向上することを示した。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits [31.571978291138866]
本稿では,オフライン政策評価の信頼性を高めるための分散ロバストな手法を提案する。
本手法は, 状況と政策分布の両面での相違点が存在する場合に, 堅牢な政策評価結果を提供することを目的としている。
論文 参考訳(メタデータ) (2024-01-21T00:42:06Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Low Variance Off-policy Evaluation with State-based Importance Sampling [21.727827944373793]
本稿では, 重みの計算から特定の状態を取り除き, ばらつきを低減できる状態ベース重要度サンプリング推定器を提案する。
4つの領域の実験により、状態ベースの手法は、従来の手法に比べて、ばらつきの低減と精度の向上を一貫して達成していることが示された。
論文 参考訳(メタデータ) (2022-12-07T19:56:11Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。