論文の概要: Risk Bounds and Rademacher Complexity in Batch Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.13883v1
- Date: Thu, 25 Mar 2021 14:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:56:56.206117
- Title: Risk Bounds and Rademacher Complexity in Batch Reinforcement Learning
- Title(参考訳): バッチ強化学習におけるリスク境界とラデマッハ複雑性
- Authors: Yaqi Duan, Chi Jin, Zhiyuan Li
- Abstract要約: 本稿では,一般値関数近似を用いたバッチ強化学習(RL)について考察する。
Empirical Risk Minimizer (ERM) の過剰リスクは、関数クラスの Rademacher 複雑性によって有界である。
高速統計率は局所ラデマッハ複雑性のツールを使用することで達成できる。
- 参考スコア(独自算出の注目度): 36.015585972493575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers batch Reinforcement Learning (RL) with general value
function approximation. Our study investigates the minimal assumptions to
reliably estimate/minimize Bellman error, and characterizes the generalization
performance by (local) Rademacher complexities of general function classes,
which makes initial steps in bridging the gap between statistical learning
theory and batch RL. Concretely, we view the Bellman error as a surrogate loss
for the optimality gap, and prove the followings: (1) In double sampling
regime, the excess risk of Empirical Risk Minimizer (ERM) is bounded by the
Rademacher complexity of the function class. (2) In the single sampling regime,
sample-efficient risk minimization is not possible without further assumptions,
regardless of algorithms. However, with completeness assumptions, the excess
risk of FQI and a minimax style algorithm can be again bounded by the
Rademacher complexity of the corresponding function classes. (3) Fast
statistical rates can be achieved by using tools of local Rademacher
complexity. Our analysis covers a wide range of function classes, including
finite classes, linear spaces, kernel spaces, sparse linear features, etc.
- Abstract(参考訳): 本稿では,一般値関数近似を用いたバッチ強化学習(RL)について考察する。
本研究では,ベルマン誤差を確実に推定・最小化するための最小仮定について検討し,一般関数クラスの(局所)ラデマッハ複素量による一般化性能を特徴付けるとともに,統計的学習理論とバッチRLのギャップを埋める最初のステップとなる。
具体的には,ベルマン誤差を最適性ギャップのサロゲート損失とみなし,(1)二重サンプリング方式では,経験的リスク最小化器(ERM)の過剰リスクは関数クラスのラドマチャー複雑性によって制限される。
2) 単一サンプリング方式では, アルゴリズムによらず, さらなる仮定がなければ, サンプル効率のよいリスク最小化は不可能である。
しかし完全性仮定では、FQI の余剰リスクとミニマックススタイルのアルゴリズムは、対応する関数クラスのラデマッハ複雑性によって再び有界となる。
(3) 局所ラデマッハ複雑性のツールを用いて, 高速な統計率が得られる。
私たちの分析では、有限クラス、線形空間、カーネル空間、疎線型特徴など、幅広い関数クラスをカバーしています。
関連論文リスト
- Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis [17.526736505065227]
リスクに敏感なアルゴリズムは、リスクニュートラルなアルゴリズムに比べて、イテレーションの複雑さが向上するかどうかを検討する。
我々の理論的分析は、リスクに敏感なREINFORCEは収束に必要な反復回数を減らすことができることを示している。
シミュレーションの結果, リスク・ニュートラルなケースに比べて, 約半数のエピソードの後に, リスク・アバースのケースが収束し, より早く安定することが確認できた。
論文 参考訳(メタデータ) (2024-03-13T20:50:49Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Regularization and Optimal Multiclass Learning [10.168670899305232]
この研究は、経験的リスク最小化が失敗する最も単純な設定における正規化の役割を特徴づけることである。
ワンインクルージョングラフ(OIG)を用いて、試行錯誤アルゴリズムの原理に相応しい最適な学習アルゴリズムを示す。
論文 参考訳(メタデータ) (2023-09-24T16:49:55Z) - Optimal Algorithms for Stochastic Complementary Composite Minimization [55.26935605535377]
統計学と機械学習における正規化技術に触発され,補完的な複合化の最小化について検討した。
予測と高い確率で、新しい過剰なリスク境界を提供する。
我々のアルゴリズムはほぼ最適であり、このクラスの問題に対して、新しいより低い複雑性境界によって証明する。
論文 参考訳(メタデータ) (2022-11-03T12:40:24Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - On the Minimal Error of Empirical Risk Minimization [90.09093901700754]
回帰作業における経験的リスク最小化(ERM)手順の最小誤差について検討する。
私たちの鋭い下限は、データを生成するモデルの単純さに適応する可能性(あるいは不可能)に光を当てています。
論文 参考訳(メタデータ) (2021-02-24T04:47:55Z) - Learning with CVaR-based feedback under potentially heavy tails [8.572654816871873]
条件付きリスク(CVaR)の最小化を目指す学習アルゴリズムについて検討する。
まず,重み付き確率変数に対するCVaRの汎用推定器について検討する。
次に、勾配駆動サブプロセスによって生成される候補の中から頑健に選択する新しい学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-06-03T01:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。