論文の概要: The Role of Environment Access in Agnostic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.05405v1
- Date: Mon, 07 Apr 2025 18:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 04:21:42.093031
- Title: The Role of Environment Access in Agnostic Reinforcement Learning
- Title(参考訳): 積極的強化学習における環境アクセスの役割
- Authors: Akshay Krishnamurthy, Gene Li, Ayush Sekhari,
- Abstract要約: 大規模な状態空間を持つ環境における強化学習(RL)について検討する。
我々は、機能近似の最も弱い形態を、不可知的政策学習(agnostic policy learning)とみなす。
標準オンラインRL設定では,サンプル効率のよい政策学習は不可能であることを示す。
- 参考スコア(独自算出の注目度): 37.457194209439926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Reinforcement Learning (RL) in environments with large state spaces, where function approximation is required for sample-efficient learning. Departing from a long history of prior work, we consider the weakest possible form of function approximation, called agnostic policy learning, where the learner seeks to find the best policy in a given class $\Pi$, with no guarantee that $\Pi$ contains an optimal policy for the underlying task. Although it is known that sample-efficient agnostic policy learning is not possible in the standard online RL setting without further assumptions, we investigate the extent to which this can be overcome with stronger forms of access to the environment. Specifically, we show that: 1. Agnostic policy learning remains statistically intractable when given access to a local simulator, from which one can reset to any previously seen state. This result holds even when the policy class is realizable, and stands in contrast to a positive result of [MFR24] showing that value-based learning under realizability is tractable with local simulator access. 2. Agnostic policy learning remains statistically intractable when given online access to a reset distribution with good coverage properties over the state space (the so-called $\mu$-reset setting). We also study stronger forms of function approximation for policy learning, showing that PSDP [BKSN03] and CPI [KL02] provably fail in the absence of policy completeness. 3. On a positive note, agnostic policy learning is statistically tractable for Block MDPs with access to both of the above reset models. We establish this via a new algorithm that carefully constructs a policy emulator: a tabular MDP with a small state space that approximates the value functions of all policies $\pi \in \Pi$. These values are approximated without any explicit value function class.
- Abstract(参考訳): 本研究では,大規模な状態空間を持つ環境における強化学習(Reinforcement Learning, RL)について検討する。
先行研究の長い歴史を振り返って,学習者が与えられたクラス$\Pi$の最良のポリシーを見出そうとする「不可知政策学習」と呼ばれる,機能近似の最も弱い形態を考える。
オンラインRLの標準設定では,さらなる仮定なしでは,サンプル効率のよい政策学習が不可能であることが知られているが,環境へのより強力なアクセス形態で克服できる範囲について検討する。
具体的には こう示します
1. 局所的なシミュレータへのアクセスが与えられると、アグノスティックな政策学習は統計的に難航し、そこから先述した状態にリセットすることができる。
この結果は、ポリシークラスが実現可能であったとしても成り立ち、[MFR24]の肯定的な結果とは対照的に、実現可能性に基づく価値ベースの学習はローカルシミュレーターアクセスで抽出可能であることを示す。
2) 国家空間上の良好なカバレッジ特性を有するリセット分布(いわゆる$\mu$-reset set)へのオンラインアクセスが与えられると、アグノスティックな政策学習は統計的に難航する。
また,PSDP[BKSN03]とCPI[KL02]が政策完全性の欠如で確実に失敗することを示し,政策学習のための関数近似のより強力な形式についても検討した。
ポジティブな点として、上記のリセットモデルの両方にアクセス可能なブロックMDPに対して、Agnostic Policy Learningは統計的に抽出可能である。
我々は、ポリシーエミュレータを慎重に構築する新しいアルゴリズム、すなわち、すべてのポリシーの値関数を近似する小さな状態空間を持つ表型MDPによってこれを確立します。
これらの値は明示的な値関数クラスなしで近似される。
関連論文リスト
- Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - General Policy Evaluation and Improvement by Learning to Identify Few
But Crucial States [12.059140532198064]
政策評価と改善の学習は強化学習の中核的な問題である。
最近検討された競合の代替手段は、多くのポリシーで単一の値関数を学ぶことである。
NNポリシを評価するために訓練された値関数も,ポリシアーキテクチャの変更に不変であることを示す。
論文 参考訳(メタデータ) (2022-07-04T16:34:53Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。