論文の概要: Solving Deep Reinforcement Learning Benchmarks with Linear Policy
Networks
- arxiv url: http://arxiv.org/abs/2402.06912v1
- Date: Sat, 10 Feb 2024 09:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:43:57.661370
- Title: Solving Deep Reinforcement Learning Benchmarks with Linear Policy
Networks
- Title(参考訳): リニアポリシネットワークを用いた深層強化学習ベンチマークの解法
- Authors: Annie Wong, Jacob de Nobel, Thomas B\"ack, Aske Plaat, Anna V.
Kononova
- Abstract要約: 本研究では、勾配に基づく深層強化学習法と比較して、進化戦略(ES)がどのように機能するかを検討する。
我々は、観測から行動までの1つの線形層からなる正規ネットワークとポリシーネットワークの両方をベンチマークする。
ESは、多くのRLベンチマークタスクに対して効果的な線形ポリシーを見つけることができる。
- 参考スコア(独自算出の注目度): 0.7499722271664147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Deep Reinforcement Learning (DRL) methods can learn effective
policies for challenging problems such as Atari games and robotics tasks,
algorithms are complex and training times are often long. This study
investigates how evolution strategies (ES) perform compared to gradient-based
deep reinforcement learning methods. We use ES to optimize the weights of a
neural network via neuroevolution, performing direct policy search. We
benchmark both regular networks and policy networks consisting of a single
linear layer from observations to actions; for three classical ES methods and
for three gradient-based methods such as PPO. Our results reveal that ES can
find effective linear policies for many RL benchmark tasks, in contrast to DRL
methods that can only find successful policies using much larger networks,
suggesting that current benchmarks are easier to solve than previously assumed.
Interestingly, also for higher complexity tasks, ES achieves results comparable
to gradient-based DRL algorithms. Furthermore, we find that by directly
accessing the memory state of the game, ES are able to find successful policies
in Atari, outperforming DQN. While gradient-based methods have dominated the
field in recent years, ES offers an alternative that is easy to implement,
parallelize, understand, and tune.
- Abstract(参考訳): 深層強化学習(DRL)手法は,アタリゲームやロボティクスタスクなどの課題に対する効果的なポリシを学習することができるが,アルゴリズムは複雑であり,トレーニング時間は長いことが多い。
本研究では,勾配に基づく深層強化学習法と比較して,進化戦略(es)がどのように機能するかを検討する。
我々はESを用いて神経進化を通じてニューラルネットワークの重みを最適化し、直接ポリシー探索を行う。
我々は、観測から行動までの1つの線形層からなる正規ネットワークとポリシーネットワークの両方をベンチマークし、古典ES法とPPOのような勾配に基づく3つの手法についてベンチマークを行った。
その結果,多くのRLベンチマークタスクに対して,ESが有効な線形ポリシーを見出すことができることが明らかとなった。
興味深いことに、より複雑なタスクのために、ESは勾配ベースのDRLアルゴリズムに匹敵する結果を得る。
さらに、ゲームのメモリ状態に直接アクセスすることで、esはatariで成功したポリシーを見つけることができ、dqnよりも優れています。
近年、勾配に基づく手法がこの分野を支配しているが、ESは実装、並列化、理解、チューニングが容易な代替手段を提供している。
関連論文リスト
- Offline Goal-Conditioned Reinforcement Learning for Safety-Critical
Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T05:20:57Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Deep Active Learning with Structured Neural Depth Search [18.180995603975422]
Active-iNASは、複数のモデルを訓練し、各アクティブラーニングサイクルの後に、その後のサンプルをクエリする最適な一般化性能でモデルを選択する。
本稿では,SVI(Structured Variational Inference)あるいはSNDS(Structured Neural Deep Search)と呼ばれる手法を用いた新しいアクティブ戦略を提案する。
同時に、理論上は、平均場推定に基づく現在のVIベースの手法が性能を低下させる可能性があることを実証している。
論文 参考訳(メタデータ) (2023-06-05T12:00:12Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Improving Generalization of Deep Reinforcement Learning-based TSP
Solvers [19.29028564568974]
本稿では,ディープラーニングアーキテクチャとDRL学習方法を含むMAGICという新しいアプローチを提案する。
マルチレイヤパーセプトロン,グラフニューラルネットワーク,アテンションモデルを統合したアーキテクチャでは,旅行セールスマンソリューションを逐次生成するポリシを定義している。
1) DRLポリシー更新をローカル検索とインターリーブし(新しいローカル検索技術を用いて)、(2) 新たなシンプルなベースラインを使用し、(3) 勾配学習を適用した。
論文 参考訳(メタデータ) (2021-10-06T15:16:19Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。