論文の概要: Competitiveness of MAP-Elites against Proximal Policy Optimization on
locomotion tasks in deterministic simulations
- arxiv url: http://arxiv.org/abs/2009.08438v2
- Date: Sat, 19 Sep 2020 08:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 11:40:44.725557
- Title: Competitiveness of MAP-Elites against Proximal Policy Optimization on
locomotion tasks in deterministic simulations
- Title(参考訳): 決定論的シミュレーションにおけるロコモーション課題に対するMAP-Elitesの競合性
- Authors: Szymon Brych and Antoine Cully
- Abstract要約: 我々は,Phenotype Elites (MAP-Elites) の多次元アーカイブが,最先端のRL手法よりも優れた性能を実現することを示す。
本稿では、EAと現代の計算資源を組み合わせることで、有望な特性を示すことを示す。
- 参考スコア(独自算出の注目度): 1.827510863075184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing importance of robots and automation creates a demand for
learnable controllers which can be obtained through various approaches such as
Evolutionary Algorithms (EAs) or Reinforcement Learning (RL). Unfortunately,
these two families of algorithms have mainly developed independently and there
are only a few works comparing modern EAs with deep RL algorithms. We show that
Multidimensional Archive of Phenotypic Elites (MAP-Elites), which is a modern
EA, can deliver better-performing solutions than one of the state-of-the-art RL
methods, Proximal Policy Optimization (PPO) in the generation of locomotion
controllers for a simulated hexapod robot. Additionally, extensive
hyper-parameter tuning shows that MAP-Elites displays greater robustness across
seeds and hyper-parameter sets. Generally, this paper demonstrates that EAs
combined with modern computational resources display promising characteristics
and have the potential to contribute to the state-of-the-art in controller
learning.
- Abstract(参考訳): ロボットと自動化の重要性の高まりは、進化的アルゴリズム(EA)や強化学習(RL)といった様々なアプローチを通じて得られる学習可能なコントローラの需要を生み出します。
残念ながら、これらの2種類のアルゴリズムは主に独立して開発されており、現代のEAと深いRLアルゴリズムを比較する研究はごくわずかである。
擬似六足歩行ロボットの移動制御系生成におけるPPO (Proximal Policy Optimization) は, 最新のEAである多次元表現型エリートアーカイブ (MAP-Elites) により, 最先端のRL法よりも優れた性能を実現することができることを示す。
さらに、広範なハイパーパラメータチューニングにより、MAP-エリートは種子とハイパーパラメータセット間でより堅牢性を示す。
本稿では、EAと現代の計算資源を組み合わせることで、期待できる特性を示し、制御学習の最先端に貢献する可能性を実証する。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Multi-Agent Reinforcement Learning for Autonomous Driving: A Survey [14.73689900685646]
強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定のための強力なツールであり、人間の能力を超えるパフォーマンスを達成した。
マルチエージェントシステム領域におけるRLの拡張として、マルチエージェントRL(MARL)は制御ポリシーを学ぶだけでなく、環境内の他のすべてのエージェントとの相互作用についても考慮する必要がある。
シミュレーターは、RLの基本である現実的なデータを得るのに不可欠である。
論文 参考訳(メタデータ) (2024-08-19T03:31:20Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - Karolos: An Open-Source Reinforcement Learning Framework for Robot-Task
Environments [0.3867363075280544]
強化学習(RL)研究において、シミュレーションはアルゴリズム間のベンチマークを可能にする。
本稿では,ロボット応用のためのフレームワークであるKarolosを紹介する。
コードはオープンソースでGitHubに公開されており、ロボット工学におけるRLアプリケーションの研究を促進することを目的としている。
論文 参考訳(メタデータ) (2022-12-01T23:14:02Z) - Bayesian Generational Population-Based Training [35.70338636901159]
Population-Based Training (PBT)は、いくつかの大規模な設定で素晴らしいパフォーマンスを実現している。
PBTスタイルの手法に2つの新しい革新を導入する。
これらのイノベーションが大きなパフォーマンス向上につながっていることを示しています。
論文 参考訳(メタデータ) (2022-07-19T16:57:38Z) - MAMBPO: Sample-efficient multi-robot reinforcement learning using
learned world models [4.84279798426797]
マルチロボットシステムは、少数の試験で行動を学ぶ強化学習(RL)アルゴリズムの恩恵を受けることができます。
マルチエージェントモデルベースポリシー最適化(MAMBPO)という新しいマルチエージェントモデルベースRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-05T13:37:23Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - The Adversarial Resilience Learning Architecture for AI-based Modelling,
Exploration, and Operation of Complex Cyber-Physical Systems [0.0]
本稿では、複雑な環境チェックとレジリエントな操作に対する新しいアプローチを定式化する、ARL(Adversarial Learning)の概念について述べる。
ARLのクインテッサンスは、システムを探究し、ドメインの知識なしに互いに訓練するエージェントの両方にある。
本稿では、モデルベースDRLベースのアルゴリズムと同様に、広範囲のモデルフリーを使用できるARLソフトウェアアーキテクチャを紹介する。
論文 参考訳(メタデータ) (2020-05-27T19:19:57Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。