Fugu-MT 論文翻訳(概要): The Effective Horizon Explains Deep RL Performance in Stochastic Environments

論文の概要: The Effective Horizon Explains Deep RL Performance in Stochastic Environments

arxiv url: http://arxiv.org/abs/2312.08369v1
Date: Wed, 13 Dec 2023 18:58:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 14:26:07.344214
Title: The Effective Horizon Explains Deep RL Performance in Stochastic Environments
Title（参考訳）: 確率環境における深部RL性能の効果的説明
Authors: Cassidy Laidlaw and Banghua Zhu and Stuart Russell and Anca Dragan
Abstract要約: ランダム探索やニューラルネットワークのようなより表現力のある関数クラスを用いたにもかかわらず、ディープRLアルゴリズムが実際によく機能する理由を示す。我々は、ランダムにロールアウトを収集して、ほぼ最適ポリシーを反復的に学習する新しいRLアルゴリズム、SQIRLを導入する。ランダムな条件のQ-関数を推定することにより、多くの環境が解決可能であることを示すので、実際にランダムな探索がうまく機能する理由を示す。
参考スコア（独自算出の注目度）: 23.10267286342329
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) theory has largely focused on proving minimax sample complexity bounds. These require strategic exploration algorithms that use relatively limited function classes for representing the policy or value function. Our goal is to explain why deep RL algorithms often perform well in practice, despite using random exploration and much more expressive function classes like neural networks. Our work arrives at an explanation by showing that many stochastic MDPs can be solved by performing only a few steps of value iteration on the random policy's Q function and then acting greedily. When this is true, we find that it is possible to separate the exploration and learning components of RL, making it much easier to analyze. We introduce a new RL algorithm, SQIRL, that iteratively learns a near-optimal policy by exploring randomly to collect rollouts and then performing a limited number of steps of fitted-Q iteration over those rollouts. Any regression algorithm that satisfies basic in-distribution generalization properties can be used in SQIRL to efficiently solve common MDPs. This can explain why deep RL works neural networks, since it is empirically established that neural networks generalize well in-distribution. Furthermore, SQIRL explains why random exploration works well in practice, since we show many environments can be solved by estimating the random policy's Q-function and then applying zero or a few steps of value iteration. We leverage SQIRL to derive instance-dependent sample complexity bounds for RL that are exponential only in an "effective horizon" of lookahead and on the complexity of the class used for function approximation. Empirically, we also find that SQIRL performance strongly correlates with PPO and DQN performance in a variety of stochastic environments, supporting that our theoretical analysis is predictive of practical performance.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)理論は主にミニマックスサンプルの複雑性境界の証明に重点を置いている。これらは、ポリシーや値関数を表現するために比較的限られた関数クラスを使用する戦略的探索アルゴリズムを必要とする。我々のゴールは、なぜディープRLアルゴリズムがランダム探索やニューラルネットワークのようなより表現力のある関数クラスを使用して、実際によく機能するのかを説明することである。我々の研究は、ランダムポリシーのQ関数上で数ステップの値反復を実行し、厳密に振る舞うことで、多くの確率的MDPを解くことができることを示す。これが真実であれば、rlの探索と学習のコンポーネントを分離することが可能で、解析がずっと簡単になります。本稿では,RLアルゴリズムであるSQIRLを導入し,ランダムに探索してロールアウトを収集し,それらのロールアウトに対して適応Qイテレーションの限られたステップを実行することで,ほぼ最適ポリシーを反復的に学習する。基本的な分布内一般化特性を満たす回帰アルゴリズムは、SQIRL で一般的な MDP を効率的に解くことができる。このことは、ディープRLがニューラルネットワークを動作させる理由を説明することができる。さらにsqirlは、ランダムポリシーのq関数を推定し、0または数ステップの反復を適用することで、多くの環境を解決できることを示したので、ランダム探索が実際にうまく機能する理由を説明している。我々はSQIRLを利用して、ルックアヘッドの「効果的な地平線」にのみ指数関数的なRLのインスタンス依存サンプル複雑性境界と、関数近似に使用されるクラスの複雑性を導出する。また,SQIRLの性能は様々な確率環境におけるPPOおよびDQN性能と強く相関し,我々の理論解析が実用性能の予測可能であることを実証的に示す。

関連論文リスト

Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文参考訳（メタデータ） (2024-05-16T17:58:44Z)
The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文参考訳（メタデータ） (2024-04-23T18:09:53Z)
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。 RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文参考訳（メタデータ） (2023-06-28T04:16:16Z)
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文参考訳（メタデータ） (2023-05-29T17:11:28Z)
Bridging RL Theory and Practice with the Effective Horizon [18.706109961534676]
先行境界は、深いRLが成功するか失敗するかは相関しないことを示す。我々はこれを、有効地平線と呼ぶ新しいMDPの複雑さ尺度に一般化する。また,既存の境界と異なり,実効地平線は報酬形成や事前訓練された探査政策を用いることの効果を予測できることがわかった。
論文参考訳（メタデータ） (2023-04-19T17:59:01Z)
Sample Complexity of Kernel-Based Q-Learning [11.32718794195643]
任意に大規模に割引されたMDPにおいて,$epsilon$-optimal Policyを求める非パラメトリックQ-ラーニングアルゴリズムを提案する。我々の知る限りでは、このような一般モデルの下では、有限サンプルの複雑さを示す最初の結果である。
論文参考訳（メタデータ） (2023-02-01T19:46:25Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
On Function Approximation in Reinforcement Learning: Optimism in the Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。私たちの後悔の限界はエピソードの数とは無関係です。
論文参考訳（メタデータ） (2020-11-09T18:32:22Z)
Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文参考訳（メタデータ） (2020-10-16T18:48:49Z)
Active Finite Reward Automaton Inference and Reinforcement Learning Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-28T21:13:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。