論文の概要: HyperAgent: A Simple, Scalable, Efficient and Provable Reinforcement
Learning Framework for Complex Environments
- arxiv url: http://arxiv.org/abs/2402.10228v1
- Date: Mon, 5 Feb 2024 07:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-25 17:16:39.511890
- Title: HyperAgent: A Simple, Scalable, Efficient and Provable Reinforcement
Learning Framework for Complex Environments
- Title(参考訳): HyperAgent: 複雑な環境のためのシンプルでスケーラブルで効率的な強化学習フレームワーク
- Authors: Yingru Li, Jiawei Xu, Lei Han, Zhi-Quan Luo
- Abstract要約: 強化学習 (Reinforcement Learning, RL) エージェントは単純で効率的でスケーラブルで、大きな状態空間を持ち、相互作用の蓄積が増えている。
本稿では,ハイパーモデル,インデックスサンプリングスキーム,インクリメンタル更新機構を備えたRLフレームワークであるHyperAgentを提案する。
この研究はRLの理論的および実践的な領域を橋渡しし、RLアルゴリズム設計の新しいベンチマークを確立した。
- 参考スコア(独自算出の注目度): 25.85733721852361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To solve complex tasks under resource constraints, reinforcement learning
(RL) agents need to be simple, efficient, and scalable with (1) large state
space and (2) increasingly accumulated data of interactions. We propose the
HyperAgent, a RL framework with hypermodel, index sampling schemes and
incremental update mechanism, enabling computation-efficient sequential
posterior approximation and data-efficient action selection under general value
function approximation beyond conjugacy. The implementation of \HyperAgent is
simple as it only adds one module and one line of code additional to DDQN.
Practically, HyperAgent demonstrates its robust performance in large-scale deep
RL benchmarks with significant efficiency gain in terms of both data and
computation. Theoretically, among the practically scalable algorithms,
HyperAgent is the first method to achieve provably scalable per-step
computational complexity as well as sublinear regret under tabular RL. The core
of our theoretical analysis is the sequential posterior approximation argument,
made possible by the first analytical tool for sequential random projection, a
non-trivial martingale extension of the Johnson-Lindenstrauss lemma. This work
bridges the theoretical and practical realms of RL, establishing a new
benchmark for RL algorithm design.
- Abstract(参考訳): リソース制約下で複雑なタスクを解決するために、強化学習(rl)エージェントは、(1)大きな状態空間と(2)ますます蓄積されるインタラクションデータによって、シンプルで効率的でスケーラブルである必要がある。
本稿では,ハイパーモデルを用いたrlフレームワークであるhyperagent,インデックスサンプリングスキーム,インクリメンタル更新機構を提案する。
\HyperAgentの実装は、DDQNに1つのモジュールと1行のコードを追加するだけでシンプルである。
実際にHyperAgentは、大規模なディープRLベンチマークにおいて、データと計算の両面で大きな効率向上を示す。
理論的には、実際にスケーラブルなアルゴリズムの中で、HyperAgentは証明可能なスケーラブルなステップごとの計算複雑性を達成するための最初の方法である。
理論解析の核となるのは、ジョンソン-リンデンシュトラウス補題の非自明なマーチンゲール展開であるシーケンシャルランダムプロジェクションの最初の解析ツールによって可能となった逐次後近似論である。
この研究はRLの理論的および実践的な領域を橋渡しし、RLアルゴリズム設計の新しいベンチマークを確立する。
関連論文リスト
- The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。
本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。
我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習は、時間的抽象と探索の増大を利用して複雑な長い水平方向のタスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Two-step hyperparameter optimization method: Accelerating hyperparameter
search by using a fraction of a training dataset [0.15420205433587747]
計算要求と待ち時間を抑制するための戦略的ソリューションとして,2段階のHPO法を提案する。
我々は最近の2段階HPO法のエアロゾル活性化のためのニューラルネットワークエミュレータ開発への応用について述べる。
論文 参考訳(メタデータ) (2023-02-08T02:38:26Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。