Fugu-MT 論文翻訳(概要): HyperAgent: A Simple, Scalable, Efficient and Provable Reinforcement Learning Framework for Complex Environments

論文の概要: HyperAgent: A Simple, Scalable, Efficient and Provable Reinforcement Learning Framework for Complex Environments

arxiv url: http://arxiv.org/abs/2402.10228v3
Date: Mon, 18 Mar 2024 04:22:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 02:02:06.580258
Title: HyperAgent: A Simple, Scalable, Efficient and Provable Reinforcement Learning Framework for Complex Environments
Title（参考訳）: HyperAgent: 複雑な環境のためのシンプルでスケーラブルで効率的な強化学習フレームワーク
Authors: Yingru Li, Jiawei Xu, Lei Han, Zhi-Quan Luo,
Abstract要約: HyperAgentはハイパーモデルとインデックスサンプリングスキームを備えたRLフレームワークである。 HyperAgentの実装は簡単で、Double-DQNに必要なモジュールをひとつ追加するだけでよい。この研究はRLの理論的および実践的な領域を橋渡しし、RLアルゴリズム設計の新しいベンチマークを確立した。
参考スコア（独自算出の注目度）: 23.669599662214686
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To solve complex tasks under resource constraints, reinforcement learning (RL) agents need to be simple, efficient, and scalable, addressing (1) large state spaces and (2) the continuous accumulation of interaction data. We propose HyperAgent, an RL framework featuring the hypermodel and index sampling schemes that enable computation-efficient incremental approximation for the posteriors associated with general value functions without the need for conjugacy, and data-efficient action selection. Implementing HyperAgent is straightforward, requiring only one additional module beyond what is necessary for Double-DQN. HyperAgent stands out as the first method to offer robust performance in large-scale deep RL benchmarks while achieving provably scalable per-step computational complexity and attaining sublinear regret under tabular assumptions. HyperAgent can solve Deep Sea hard exploration problems with episodes that optimally scale with problem size and exhibits significant efficiency gains in both data and computation under the Atari benchmark. The core of our theoretical analysis is the sequential posterior approximation argument, enabled by the first analytical tool for sequential random projection -- a non-trivial martingale extension of the Johnson-Lindenstrauss. This work bridges the theoretical and practical realms of RL, establishing a new benchmark for RL algorithm design.
Abstract（参考訳）: 資源制約下での複雑なタスクを解決するためには、強化学習(RL)エージェントは単純で効率的でスケーラブルで、(1)大きな状態空間と(2)相互作用データの連続的な蓄積に対処する必要がある。一般値関数に関連付けられた後続の計算効率の高いインクリメンタル近似を,共役性やデータ効率のよい動作選択を不要に実現した,ハイパーモデルとインデックスサンプリングを特徴とするRLフレームワークHyperAgentを提案する。 HyperAgentの実装は簡単で、Double-DQNに必要なモジュールをひとつ追加するだけでよい。 HyperAgentは、大規模なディープRLベンチマークで堅牢なパフォーマンスを提供する最初の方法であり、証明可能なスケーラブルなステップ毎の計算複雑性を実現し、表の仮定の下でサブ線形後悔を実現する。 HyperAgentは、問題のサイズに合わせて最適にスケールし、Atariベンチマークの下でのデータと計算の両方で大幅な効率向上を示すエピソードでディープシーのハードな探索問題を解決することができる。理論解析の核となるのは、ジョンソン-リンデンシュトラウスの非自明なマーチンゲール拡大であるシーケンシャルランダム射影の最初の解析ツールによって実現された逐次後近似論である。この研究はRLの理論的および実践的な領域を橋渡しし、RLアルゴリズム設計の新しいベンチマークを確立した。

関連論文リスト

ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
Avoiding $\mathbf{exp(R_{max})}$ scaling in RLHF through Preference-based Exploration [20.76451379043945]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)アライメントのための重要な手法として登場した。本稿では、オンラインRLHFの設定と、サンプル効率の向上に焦点をあてる。
論文参考訳（メタデータ） (2025-02-02T04:40:04Z)
ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning [42.33815055388433]
ARLBenchは強化学習(RL)におけるハイパーパラメータ最適化(HPO)のベンチマークである様々なHPOアプローチの比較が可能であり、高い効率で評価できる。 ARLBenchはAutoRLの研究のための効率的で柔軟性があり、未来志向の基盤である。
論文参考訳（メタデータ） (2024-09-27T15:22:28Z)
Adaptive Foundation Models for Online Decisions: HyperAgent with Fast Incremental Uncertainty Estimation [20.45450465931698]
GPT-HyperAgentは,GPTとHyperAgentを併用した拡張手法である。我々はHyperAgentが$tildeO(log T)$ per-step計算複雑性を用いて高速なインクリメンタル不確実性推定を実現することを証明した。解析により,HyperAgentの遺残順序は線形文脈帯域における正確なトンプソンサンプリングと一致することが示された。
論文参考訳（メタデータ） (2024-07-18T06:16:09Z)
The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文参考訳（メタデータ） (2023-12-13T18:58:56Z)
Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文参考訳（メタデータ） (2023-11-20T17:44:40Z)
Learning RL-Policies for Joint Beamforming Without Exploration: A Batch Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文参考訳（メタデータ） (2023-10-12T18:36:36Z)
Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文参考訳（メタデータ） (2023-05-29T17:11:28Z)
Bridging RL Theory and Practice with the Effective Horizon [18.706109961534676]
先行境界は、深いRLが成功するか失敗するかは相関しないことを示す。我々はこれを、有効地平線と呼ぶ新しいMDPの複雑さ尺度に一般化する。また,既存の境界と異なり,実効地平線は報酬形成や事前訓練された探査政策を用いることの効果を予測できることがわかった。
論文参考訳（メタデータ） (2023-04-19T17:59:01Z)
Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-23T09:03:24Z)
Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。この分離は線形MDPの設定には存在しないことを示す。我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-01-26T22:09:59Z)
On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文参考訳（メタデータ） (2021-10-19T07:26:33Z)
Maximum Entropy RL (Provably) Solves Some Robust RL Problems [94.80212602202518]
我々は、標準最大エントロピーRLが動的および報酬関数のいくつかの障害に対して堅牢であることを理論的に証明する。以上の結果から,MaxEnt RL自体が特定の障害に対して頑健であり,追加の修正は不要であることが示唆された。
論文参考訳（メタデータ） (2021-03-10T18:45:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。