論文の概要: The Effective Horizon Explains Deep RL Performance in Stochastic
Environments
- arxiv url: http://arxiv.org/abs/2312.08369v1
- Date: Wed, 13 Dec 2023 18:58:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 14:26:07.344214
- Title: The Effective Horizon Explains Deep RL Performance in Stochastic
Environments
- Title(参考訳): 確率環境における深部RL性能の効果的説明
- Authors: Cassidy Laidlaw and Banghua Zhu and Stuart Russell and Anca Dragan
- Abstract要約: ランダム探索やニューラルネットワークのようなより表現力のある関数クラスを用いたにもかかわらず、ディープRLアルゴリズムが実際によく機能する理由を示す。
我々は、ランダムにロールアウトを収集して、ほぼ最適ポリシーを反復的に学習する新しいRLアルゴリズム、SQIRLを導入する。
ランダムな条件のQ-関数を推定することにより、多くの環境が解決可能であることを示すので、実際にランダムな探索がうまく機能する理由を示す。
- 参考スコア(独自算出の注目度): 23.10267286342329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) theory has largely focused on proving minimax
sample complexity bounds. These require strategic exploration algorithms that
use relatively limited function classes for representing the policy or value
function. Our goal is to explain why deep RL algorithms often perform well in
practice, despite using random exploration and much more expressive function
classes like neural networks. Our work arrives at an explanation by showing
that many stochastic MDPs can be solved by performing only a few steps of value
iteration on the random policy's Q function and then acting greedily. When this
is true, we find that it is possible to separate the exploration and learning
components of RL, making it much easier to analyze. We introduce a new RL
algorithm, SQIRL, that iteratively learns a near-optimal policy by exploring
randomly to collect rollouts and then performing a limited number of steps of
fitted-Q iteration over those rollouts. Any regression algorithm that satisfies
basic in-distribution generalization properties can be used in SQIRL to
efficiently solve common MDPs. This can explain why deep RL works neural
networks, since it is empirically established that neural networks generalize
well in-distribution. Furthermore, SQIRL explains why random exploration works
well in practice, since we show many environments can be solved by estimating
the random policy's Q-function and then applying zero or a few steps of value
iteration. We leverage SQIRL to derive instance-dependent sample complexity
bounds for RL that are exponential only in an "effective horizon" of lookahead
and on the complexity of the class used for function approximation.
Empirically, we also find that SQIRL performance strongly correlates with PPO
and DQN performance in a variety of stochastic environments, supporting that
our theoretical analysis is predictive of practical performance.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)理論は主にミニマックスサンプルの複雑性境界の証明に重点を置いている。
これらは、ポリシーや値関数を表現するために比較的限られた関数クラスを使用する戦略的探索アルゴリズムを必要とする。
我々のゴールは、なぜディープRLアルゴリズムがランダム探索やニューラルネットワークのようなより表現力のある関数クラスを使用して、実際によく機能するのかを説明することである。
我々の研究は、ランダムポリシーのQ関数上で数ステップの値反復を実行し、厳密に振る舞うことで、多くの確率的MDPを解くことができることを示す。
これが真実であれば、rlの探索と学習のコンポーネントを分離することが可能で、解析がずっと簡単になります。
本稿では,RLアルゴリズムであるSQIRLを導入し,ランダムに探索してロールアウトを収集し,それらのロールアウトに対して適応Qイテレーションの限られたステップを実行することで,ほぼ最適ポリシーを反復的に学習する。
基本的な分布内一般化特性を満たす回帰アルゴリズムは、SQIRL で一般的な MDP を効率的に解くことができる。
このことは、ディープRLがニューラルネットワークを動作させる理由を説明することができる。
さらにsqirlは、ランダムポリシーのq関数を推定し、0または数ステップの反復を適用することで、多くの環境を解決できることを示したので、ランダム探索が実際にうまく機能する理由を説明している。
我々はSQIRLを利用して、ルックアヘッドの「効果的な地平線」にのみ指数関数的なRLのインスタンス依存サンプル複雑性境界と、関数近似に使用されるクラスの複雑性を導出する。
また,SQIRLの性能は様々な確率環境におけるPPOおよびDQN性能と強く相関し,我々の理論解析が実用性能の予測可能であることを実証的に示す。
関連論文リスト
- Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Bridging RL Theory and Practice with the Effective Horizon [18.706109961534676]
先行境界は、深いRLが成功するか失敗するかは相関しないことを示す。
我々はこれを、有効地平線と呼ぶ新しいMDPの複雑さ尺度に一般化する。
また,既存の境界と異なり,実効地平線は報酬形成や事前訓練された探査政策を用いることの効果を予測できることがわかった。
論文 参考訳(メタデータ) (2023-04-19T17:59:01Z) - Sample Complexity of Kernel-Based Q-Learning [11.32718794195643]
任意に大規模に割引されたMDPにおいて,$epsilon$-optimal Policyを求める非パラメトリックQ-ラーニングアルゴリズムを提案する。
我々の知る限りでは、このような一般モデルの下では、有限サンプルの複雑さを示す最初の結果である。
論文 参考訳(メタデータ) (2023-02-01T19:46:25Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。