論文の概要: When is Offline Policy Selection Sample Efficient for Reinforcement
Learning?
- arxiv url: http://arxiv.org/abs/2312.02355v1
- Date: Mon, 4 Dec 2023 21:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:24:29.268291
- Title: When is Offline Policy Selection Sample Efficient for Reinforcement
Learning?
- Title(参考訳): オフライン政策選択はいつ強化学習に有効か?
- Authors: Vincent Liu, Prabhat Nagarajan, Andrew Patterson, Martha White
- Abstract要約: サンプル効率の良いオフラインポリシー選択が可能かを明確にすることを目的としている。
最悪の場合、OPSはOPEと同じくらい難しいのです。
次に、IBES (Identible BE Selection) と呼ばれるOPSのためのBE法を提案する。
- 参考スコア(独自算出の注目度): 25.338541725347167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning algorithms often require careful
hyperparameter tuning. Consequently, before deployment, we need to select
amongst a set of candidate policies. As yet, however, there is little
understanding about the fundamental limits of this offline policy selection
(OPS) problem. In this work we aim to provide clarity on when sample efficient
OPS is possible, primarily by connecting OPS to off-policy policy evaluation
(OPE) and Bellman error (BE) estimation. We first show a hardness result, that
in the worst case, OPS is just as hard as OPE, by proving a reduction of OPE to
OPS. As a result, no OPS method can be more sample efficient than OPE in the
worst case. We then propose a BE method for OPS, called Identifiable BE
Selection (IBES), that has a straightforward method for selecting its own
hyperparameters. We highlight that using IBES for OPS generally has more
requirements than OPE methods, but if satisfied, can be more sample efficient.
We conclude with an empirical study comparing OPE and IBES, and by showing the
difficulty of OPS on an offline Atari benchmark dataset.
- Abstract(参考訳): オフライン強化学習アルゴリズムは、しばしば注意深いハイパーパラメータチューニングを必要とする。
そのため、デプロイメントの前には、候補ポリシーのセットを選択する必要があります。
しかし、このオフラインポリシー選択(OPS)問題の基本的限界についてはほとんど理解されていない。
本研究の目的は,OPSを外部政策評価(OPE)とベルマン誤差推定(BE)に接続することで,サンプル効率のよいOPSがいつ可能かを明らかにすることである。
我々はまず,OPEからOPSへの還元を証明し,OPSがOPEと同程度の硬度であることを示す。
その結果、最悪の場合、OPS法はOPEよりもサンプリング効率が良くないことがわかった。
そこで我々は,自己のハイパーパラメータを選択する簡単な方法を持つIBES (Identible BE Selection) というOPSのためのBE法を提案する。
IBESをOPSに使用する場合、一般的にOPE法よりも多くの要件があるが、満足すればよりサンプリング効率がよい。
我々は、OPEとIBESを比較した実証的研究を行い、オフラインのAtariベンチマークデータセット上でのOPSの難しさを示す。
関連論文リスト
- Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。
我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。
現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文 参考訳(メタデータ) (2024-02-18T10:13:01Z) - Pessimistic Off-Policy Optimization for Learning to Rank [9.197878514042227]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - COPS: Controlled Pruning Before Training Starts [68.8204255655161]
最先端のディープニューラルネットワーク(DNN)プルーニング技術は、トレーニング開始前にワンショットで適用され、プルーニングスコアと呼ばれる単一の基準の助けを借りてスパースアーキテクチャを評価する。
この作業では、単一プルーニング基準に集中するのではなく、任意のGASを組み合わせてより強力なプルーニング戦略を構築するためのフレームワークを提供します。
論文 参考訳(メタデータ) (2021-07-27T08:48:01Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Optimization from Structured Samples for Coverage Functions [23.540275997841043]
我々は、データから直接目的関数を研究するサンプル(OPS)モデルから最適化を再考する。
サンプルの3つの一般的な仮定の下で、最大カバレッジ問題に対して効率的なOPSSアルゴリズムを設計できることが示される。
論文 参考訳(メタデータ) (2020-07-06T13:18:11Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。