論文の概要: When is Offline Policy Selection Sample Efficient for Reinforcement
Learning?
- arxiv url: http://arxiv.org/abs/2312.02355v1
- Date: Mon, 4 Dec 2023 21:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:24:29.268291
- Title: When is Offline Policy Selection Sample Efficient for Reinforcement
Learning?
- Title(参考訳): オフライン政策選択はいつ強化学習に有効か?
- Authors: Vincent Liu, Prabhat Nagarajan, Andrew Patterson, Martha White
- Abstract要約: サンプル効率の良いオフラインポリシー選択が可能かを明確にすることを目的としている。
最悪の場合、OPSはOPEと同じくらい難しいのです。
次に、IBES (Identible BE Selection) と呼ばれるOPSのためのBE法を提案する。
- 参考スコア(独自算出の注目度): 25.338541725347167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning algorithms often require careful
hyperparameter tuning. Consequently, before deployment, we need to select
amongst a set of candidate policies. As yet, however, there is little
understanding about the fundamental limits of this offline policy selection
(OPS) problem. In this work we aim to provide clarity on when sample efficient
OPS is possible, primarily by connecting OPS to off-policy policy evaluation
(OPE) and Bellman error (BE) estimation. We first show a hardness result, that
in the worst case, OPS is just as hard as OPE, by proving a reduction of OPE to
OPS. As a result, no OPS method can be more sample efficient than OPE in the
worst case. We then propose a BE method for OPS, called Identifiable BE
Selection (IBES), that has a straightforward method for selecting its own
hyperparameters. We highlight that using IBES for OPS generally has more
requirements than OPE methods, but if satisfied, can be more sample efficient.
We conclude with an empirical study comparing OPE and IBES, and by showing the
difficulty of OPS on an offline Atari benchmark dataset.
- Abstract(参考訳): オフライン強化学習アルゴリズムは、しばしば注意深いハイパーパラメータチューニングを必要とする。
そのため、デプロイメントの前には、候補ポリシーのセットを選択する必要があります。
しかし、このオフラインポリシー選択(OPS)問題の基本的限界についてはほとんど理解されていない。
本研究の目的は,OPSを外部政策評価(OPE)とベルマン誤差推定(BE)に接続することで,サンプル効率のよいOPSがいつ可能かを明らかにすることである。
我々はまず,OPEからOPSへの還元を証明し,OPSがOPEと同程度の硬度であることを示す。
その結果、最悪の場合、OPS法はOPEよりもサンプリング効率が良くないことがわかった。
そこで我々は,自己のハイパーパラメータを選択する簡単な方法を持つIBES (Identible BE Selection) というOPSのためのBE法を提案する。
IBESをOPSに使用する場合、一般的にOPE法よりも多くの要件があるが、満足すればよりサンプリング効率がよい。
我々は、OPEとIBESを比較した実証的研究を行い、オフラインのAtariベンチマークデータセット上でのOPSの難しさを示す。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments [18.081732498034047]
この研究は、強化学習アルゴリズムを部分的に観測されたマルコフ決定プロセス(POMDP)に拡張する方法とオプションを比較する。
PPOEMとSOAPという2つのアルゴリズムが提案され、この問題に深く取り組むために研究されている。
論文 参考訳(メタデータ) (2024-07-26T17:59:55Z) - Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection [1.4530711901349282]
TTA(Test-Time Adaptation)は、分散シフト下での機械学習モデルロバストネスの問題に対処するための有望な戦略として登場した。
我々は,サロゲートベースのhp選択戦略を用いて既存のTTA手法を評価し,その性能をより現実的に評価する。
論文 参考訳(メタデータ) (2024-07-19T11:58:30Z) - Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。
我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。
現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文 参考訳(メタデータ) (2024-02-18T10:13:01Z) - Pessimistic Off-Policy Optimization for Learning to Rank [13.733459243449634]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - COPS: Controlled Pruning Before Training Starts [68.8204255655161]
最先端のディープニューラルネットワーク(DNN)プルーニング技術は、トレーニング開始前にワンショットで適用され、プルーニングスコアと呼ばれる単一の基準の助けを借りてスパースアーキテクチャを評価する。
この作業では、単一プルーニング基準に集中するのではなく、任意のGASを組み合わせてより強力なプルーニング戦略を構築するためのフレームワークを提供します。
論文 参考訳(メタデータ) (2021-07-27T08:48:01Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。