論文の概要: Agnostic Reinforcement Learning: Foundations and Algorithms
- arxiv url: http://arxiv.org/abs/2506.01884v1
- Date: Mon, 02 Jun 2025 17:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.622916
- Title: Agnostic Reinforcement Learning: Foundations and Algorithms
- Title(参考訳): Agnostic Reinforcement Learning: 基礎とアルゴリズム
- Authors: Gene Li,
- Abstract要約: この論文は、学習理論の観点から関数近似を伴うRLの統計的複雑さを厳密に検証する。
学習者は与えられたクラス$Pi$の最良のポリシーを見つけようとするが、$Pi$が基礎となるタスクに対して最適なポリシーを含んでいるという保証はない。
この包括的枠組みの中で、理論的な保証付き新しい学習アルゴリズムを設計し、任意のアルゴリズムの基本性能境界を特徴づける。
- 参考スコア(独自算出の注目度): 4.07926531936425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has demonstrated tremendous empirical success across numerous challenging domains. However, we lack a strong theoretical understanding of the statistical complexity of RL in environments with large state spaces, where function approximation is required for sample-efficient learning. This thesis addresses this gap by rigorously examining the statistical complexity of RL with function approximation from a learning theoretic perspective. Departing from a long history of prior work, we consider the weakest form of function approximation, called agnostic policy learning, in which the learner seeks to find the best policy in a given class $\Pi$, with no guarantee that $\Pi$ contains an optimal policy for the underlying task. We systematically explore agnostic policy learning along three key axes: environment access -- how a learner collects data from the environment; coverage conditions -- intrinsic properties of the underlying MDP measuring the expansiveness of state-occupancy measures for policies in the class $\Pi$, and representational conditions -- structural assumptions on the class $\Pi$ itself. Within this comprehensive framework, we (1) design new learning algorithms with theoretical guarantees and (2) characterize fundamental performance bounds of any algorithm. Our results reveal significant statistical separations that highlight the power and limitations of agnostic policy learning.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、多くの挑戦的な領域で大きな実証的な成功を示している。
しかし,サンプル効率の学習には関数近似が必要であり,大きな状態空間を持つ環境におけるRLの統計的複雑さに関する理論的な理解は乏しい。
この理論は、学習理論の観点から関数近似を用いてRLの統計的複雑さを厳密に調べることで、このギャップに対処する。
先行研究の長い歴史を振り返って,学習者が与えられたクラス$\Pi$の最良のポリシーを見出そうとする「不可知ポリシー学習」という,機能近似の最も弱い形式を考える。
環境アクセス - 学習者が環境からデータを収集する方法、カバレッジ条件 - 基礎となるMDPの本質的な特性 - クラス$\Pi$におけるポリシーに対する国家占有度の測定と表現条件 - クラス$\Pi$自体の構造的仮定。
この包括的枠組みの中では,(1)理論的保証を伴う新しい学習アルゴリズムを設計し,(2)アルゴリズムの基本性能境界を特徴付ける。
以上の結果から,非依存的な政策学習の力と限界を浮き彫りにする有意な統計的分離が明らかとなった。
関連論文リスト
- Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - The Role of Environment Access in Agnostic Reinforcement Learning [37.457194209439926]
大規模な状態空間を持つ環境における強化学習(RL)について検討する。
我々は、機能近似の最も弱い形態を、不可知的政策学習(agnostic policy learning)とみなす。
標準オンラインRL設定では,サンプル効率のよい政策学習は不可能であることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:19:56Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - Provably Efficient Offline Goal-Conditioned Reinforcement Learning with
General Function Approximation and Single-Policy Concentrability [11.786486763236104]
ゴール条件強化学習(ゴール条件強化学習、GCRL)とは、様々な目標を達成するための汎用スキルの学習である。
オフラインのGCRLは、トレーニングタスクを実行するために純粋にコンパイル済みのデータセットのみを必要とする。
修正されたオフラインGCRLアルゴリズムは、一般関数近似と単一政治集中性の両方で有効であることを示す。
論文 参考訳(メタデータ) (2023-02-07T22:04:55Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。