論文の概要: Computably Continuous Reinforcement-Learning Objectives are
PAC-learnable
- arxiv url: http://arxiv.org/abs/2303.05518v2
- Date: Sun, 19 Mar 2023 16:01:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 22:57:38.700751
- Title: Computably Continuous Reinforcement-Learning Objectives are
PAC-learnable
- Title(参考訳): 連続強化学習対象物はPAC学習可能
- Authors: Cambridge Yang, Michael Littman, Michael Carbin
- Abstract要約: 強化学習では、割引と有限水平累積報酬を最大化する古典的な目的はPAC学習可能である。
近年、研究者は古典的な累積報酬を超える目的とそれに対応する強化学習アルゴリズムを導入している。
本研究は, 汎用強化学習目標のPAC学習性を示す。
- 参考スコア(独自算出の注目度): 12.700911432945151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning, the classic objectives of maximizing discounted
and finite-horizon cumulative rewards are PAC-learnable: There are algorithms
that learn a near-optimal policy with high probability using a finite amount of
samples and computation. In recent years, researchers have introduced
objectives and corresponding reinforcement-learning algorithms beyond the
classic cumulative rewards, such as objectives specified as linear temporal
logic formulas. However, questions about the PAC-learnability of these new
objectives have remained open.
This work demonstrates the PAC-learnability of general reinforcement-learning
objectives through sufficient conditions for PAC-learnability in two analysis
settings. In particular, for the analysis that considers only sample
complexity, we prove that if an objective given as an oracle is uniformly
continuous, then it is PAC-learnable. Further, for the analysis that considers
computational complexity, we prove that if an objective is computable, then it
is PAC-learnable. In other words, if a procedure computes successive
approximations of the objective's value, then the objective is PAC-learnable.
We give three applications of our condition on objectives from the literature
with previously unknown PAC-learnability and prove that these objectives are
PAC-learnable. Overall, our result helps verify existing objectives'
PAC-learnability. Also, as some studied objectives that are not uniformly
continuous have been shown to be not PAC-learnable, our results could guide the
design of new PAC-learnable objectives.
- Abstract(参考訳): 強化学習において、割引と有限水平累積報酬を最大化する古典的な目的は、PAC学習可能である: 有限量のサンプルと計算を用いて、確率の高い準最適ポリシーを学習するアルゴリズムがある。
近年、研究者は、線形時間論理式として指定された目的など、古典的な累積報酬を超えた目的とそれに対応する強化学習アルゴリズムを導入している。
しかし、これらの新たな目的のPAC学習性に関する疑問は、まだ未解決のままである。
本研究は, 一般強化学習目標のパックリーナビリティを, 2つの分析条件におけるパックリーナビリティの十分条件を通して示している。
特に、サンプル複雑性のみを考慮した分析では、オラクルとして与えられた目的が一様連続であれば、PAC学習可能であることを示す。
さらに,計算複雑性を考慮した解析では,目的が計算可能であればpac-learnableであることが証明される。
言い換えれば、手続きが目標値の連続的な近似を計算するなら、目的はPAC学習可能である。
本稿では,PAC学習能力が不明な文献の目的に対する条件の3つの適用例を示し,これらの目的がPAC学習可能であることを証明する。
その結果,既存のPAC学習能力の検証に有効である。
また、一様連続でない研究対象がPAC学習可能でないことが示されているため、新たなPAC学習可能目標の設計を導くことができる。
関連論文リスト
- A PAC Learning Algorithm for LTL and Omega-regular Objectives in MDPs [5.946838062187346]
意思決定プロセス(MDP)におけるオメガ規則目的のためのモデルベース近似ほぼ正(PAC)学習アルゴリズムを提案する。
我々のアルゴリズムは、我々の理論を裏付ける実験を行うために、多くのサンプルしか必要としていないことを証明している。
論文 参考訳(メタデータ) (2023-10-18T18:33:41Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Unified Algorithms for RL with Decision-Estimation Coefficients: PAC, Reward-Free, Preference-Based Learning, and Beyond [28.118197762236953]
我々は,大規模な学習目標のための統一的なアルゴリズムフレームワークを開発する。
我々のフレームワークは、非回帰RL、PAC RL、報酬なし学習、モデル推定、嗜好に基づく学習など、多くの学習目標を処理する。
応用として、一般化されたDECを有界化するための自然な十分条件として「分解可能表現」を提案する。
論文 参考訳(メタデータ) (2022-09-23T17:47:24Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Reinforcement Learning for General LTL Objectives Is Intractable [10.69663517250214]
我々は、マルコフ決定プロセス(PACMDP)フレームワークにおいて、おそらく正しい学習の下で問題を定式化する。
この結果から, 強化学習アルゴリズムでは, 学習ポリシーの性能に対するPAC-MDP保証を得ることは不可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-24T18:26:13Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - PACOH: Bayes-Optimal Meta-Learning with PAC-Guarantees [77.67258935234403]
PAC-Bayesianフレームワークを用いた理論的解析を行い、メタ学習のための新しい一般化境界を導出する。
我々は、性能保証と原則付きメタレベル正規化を備えたPAC最適メタ学習アルゴリズムのクラスを開発する。
論文 参考訳(メタデータ) (2020-02-13T15:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。