論文の概要: Bi-Level Offline Policy Optimization with Limited Exploration
- arxiv url: http://arxiv.org/abs/2310.06268v1
- Date: Tue, 10 Oct 2023 02:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 02:06:58.679657
- Title: Bi-Level Offline Policy Optimization with Limited Exploration
- Title(参考訳): 限定探査による双方向オフライン政策最適化
- Authors: Wenzhuo Zhou
- Abstract要約: 我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
- 参考スコア(独自算出の注目度): 1.8130068086063336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study offline reinforcement learning (RL) which seeks to learn a good
policy based on a fixed, pre-collected dataset. A fundamental challenge behind
this task is the distributional shift due to the dataset lacking sufficient
exploration, especially under function approximation. To tackle this issue, we
propose a bi-level structured policy optimization algorithm that models a
hierarchical interaction between the policy (upper-level) and the value
function (lower-level). The lower level focuses on constructing a confidence
set of value estimates that maintain sufficiently small weighted average
Bellman errors, while controlling uncertainty arising from distribution
mismatch. Subsequently, at the upper level, the policy aims to maximize a
conservative value estimate from the confidence set formed at the lower level.
This novel formulation preserves the maximum flexibility of the implicitly
induced exploratory data distribution, enabling the power of model
extrapolation. In practice, it can be solved through a computationally
efficient, penalized adversarial estimation procedure. Our theoretical regret
guarantees do not rely on any data-coverage and completeness-type assumptions,
only requiring realizability. These guarantees also demonstrate that the
learned policy represents the "best effort" among all policies, as no other
policies can outperform it. We evaluate our model using a blend of synthetic,
benchmark, and real-world datasets for offline RL, showing that it performs
competitively with state-of-the-art methods.
- Abstract(参考訳): 既定データセットに基づく良質なポリシの学習を目的とした,オフライン強化学習(rl)について検討した。
このタスクの根本的な課題は、特に関数近似の下での十分な探索が不十分なデータセットによる分散シフトである。
この問題に対処するために、ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する二層構造最適化アルゴリズムを提案する。
低レベルは、分布ミスマッチに起因する不確実性を制御するとともに、十分に小さな重み付き平均ベルマン誤差を維持できる信頼度セットを構築することに焦点を当てている。
その後、上層レベルでは、下層レベルで形成された信頼度から、保守的価値見積りを最大化することを目指す。
この新たな定式化は、暗黙的に誘導される探索データ分布の最大柔軟性を保ち、モデル外挿のパワーを可能にする。
実際には、計算効率が良く、ペナルティ化された逆推定手順によって解くことができる。
我々の理論的後悔の保証は、データカバレッジや完全性のような仮定に頼らず、実現可能性のみを必要とする。
これらの保証はまた、学習した政策が全ての政策の中で「最善の努力」を表していることも示している。
我々は,オフラインrlのための合成,ベンチマーク,実世界のデータセットをブレンドしてモデルを評価し,最先端の手法との競合性を示す。
関連論文リスト
- Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and
Dual Bounds [21.520045697447372]
オフ・ポリティィ・アセスメント(OPE)は、以前異なるポリシーの下で収集されたオフラインデータに基づいて、所定のポリシーの期待される報酬を推定するタスクである。
本研究は,非漸近的信頼区間を無限ホリゾンオフポリシー評価で構築する問題を考える。
原始双対最適化に基づく実践的アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-03-09T22:31:20Z) - Reducing Conservativeness Oriented Offline Reinforcement Learning [29.895142928565228]
オフライン強化学習では、ポリシーはデータの固定コレクションで累積報酬を最大化する。
保守性指向強化学習を減らす方法を提案する。
提案手法は,提供されたデータセットの歪分布に対処し,期待値関数に近い値関数を導出することができる。
論文 参考訳(メタデータ) (2021-02-27T01:21:01Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。