論文の概要: Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient
- arxiv url: http://arxiv.org/abs/2011.04019v1
- Date: Sun, 8 Nov 2020 16:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:20:05.768628
- Title: Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient
- Title(参考訳): スパース機能選択により、バッチ強化学習のサンプル効率が向上
- Authors: Botao Hao, Yaqi Duan, Tor Lattimore, Csaba Szepesv\'ari, Mengdi Wang
- Abstract要約: 本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
- 参考スコア(独自算出の注目度): 62.24615324523435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides a statistical analysis of high-dimensional batch
Reinforcement Learning (RL) using sparse linear function approximation. When
there is a large number of candidate features, our result sheds light on the
fact that sparsity-aware methods can make batch RL more sample efficient. We
first consider the off-policy policy evaluation problem. To evaluate a new
target policy, we analyze a Lasso fitted Q-evaluation method and establish a
finite-sample error bound that has no polynomial dependence on the ambient
dimension. To reduce the Lasso bias, we further propose a post model-selection
estimator that applies fitted Q-evaluation to the features selected via group
Lasso. Under an additional signal strength assumption, we derive a sharper
instance-dependent error bound that depends on a divergence function measuring
the distribution mismatch between the data distribution and occupancy measure
of the target policy. Further, we study the Lasso fitted Q-iteration for batch
policy optimization and establish a finite-sample error bound depending on the
ratio between the number of relevant features and restricted minimal eigenvalue
of the data's covariance. In the end, we complement the results with minimax
lower bounds for batch-data policy evaluation/optimization that nearly match
our upper bounds. The results suggest that having well-conditioned data is
crucial for sparse batch policy learning.
- Abstract(参考訳): 本稿では,分散線形関数近似を用いた高次元バッチ強化学習(rl)の統計解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
まず、政治以外の政策評価問題を考察する。
新たな目標政策を評価するため,ラッソ適合Q値評価法を解析し,周辺次元に多項式依存のない有限サンプル誤差境界を確立する。
ラッソバイアスを低減するために,グループラッソにより選択された特徴に適合したQ-評価を適用するポストモデル選択推定器を提案する。
追加の信号強度仮定の下では、データ分布とターゲットポリシーの占有率尺度との間の分布ミスマッチを測定する分岐関数に依存するインスタンス依存の誤差境界を鋭く導出する。
さらに,バッチ政策最適化のためのラッソ適合q-イテレーションについて検討し,関連する特徴数とデータ共分散の最小固有値との比率に応じて有限サンプル誤差を定式化する。
最後に,上位値にほぼ一致するバッチデータポリシー評価/最適化のために,最小限の下位値で結果を補完する。
その結果, 疎バッチ政策学習において, 十分な条件付きデータを持つことが不可欠であることが示唆された。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Debiasing In-Sample Policy Performance for Small-Data, Large-Scale
Optimization [4.554894288663752]
本稿では,データ駆動最適化におけるポリシのアウト・オブ・サンプル性能の新たな推定法を提案する。
クロスバリデーションとは異なり、我々の手法はテストセットのデータを犠牲にするのを避ける。
我々は,小規模・大規模システムにおける推定器の性能を実証する。
論文 参考訳(メタデータ) (2021-07-26T19:00:51Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。