論文の概要: Guiding Evolutionary Strategies by Differentiable Robot Simulators
- arxiv url: http://arxiv.org/abs/2110.00438v2
- Date: Tue, 5 Oct 2021 15:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 06:50:25.962214
- Title: Guiding Evolutionary Strategies by Differentiable Robot Simulators
- Title(参考訳): 微分ロボットシミュレータによる進化戦略の導出
- Authors: Vladislav Kurenkov and Bulat Maksudov
- Abstract要約: DRS勾配が進化戦略とどのように組み合わせられるかを示す。
予備的な結果は、この組み合わせがシミュレーションと現実世界の両方で進化戦略のサンプルの複雑さを3倍から5倍に減らすことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Evolutionary Strategies were actively explored in robotic
tasks for policy search as they provide a simpler alternative to reinforcement
learning algorithms. However, this class of algorithms is often claimed to be
extremely sample-inefficient. On the other hand, there is a growing interest in
Differentiable Robot Simulators (DRS) as they potentially can find successful
policies with only a handful of trajectories. But the resulting gradient is not
always useful for the first-order optimization. In this work, we demonstrate
how DRS gradient can be used in conjunction with Evolutionary Strategies.
Preliminary results suggest that this combination can reduce sample complexity
of Evolutionary Strategies by 3x-5x times in both simulation and the real
world.
- Abstract(参考訳): 近年、進化戦略は、強化学習アルゴリズムの簡単な代替手段を提供するため、ポリシー探索のためのロボットタスクで積極的に研究されている。
しかし、このアルゴリズムのクラスは、非常にサンプル効率が悪いとしばしば主張される。
一方,識別可能なロボットシミュレータ(DRS)への関心が高まっている。
しかし、結果として得られる勾配は、一階最適化に必ずしも役に立たない。
本研究では,進化的戦略とDSS勾配をどのように併用できるかを示す。
予備的な結果は、この組み合わせがシミュレーションと現実世界の両方で進化戦略のサンプルの複雑さを3倍から5倍に減らすことを示唆している。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Back-stepping Experience Replay with Application to Model-free Reinforcement Learning for a Soft Snake Robot [15.005962159112002]
Back-stepping Experience Replay (BER)は、任意の外部強化学習アルゴリズムと互換性がある。
柔らかいヘビロボットの移動とナビゲーションのためのモデルレスRLアプローチにおけるBERの適用について述べる。
論文 参考訳(メタデータ) (2024-01-21T02:17:16Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - PI-ARS: Accelerating Evolution-Learned Visual-Locomotion with Predictive
Information Representations [32.37414300338581]
進化戦略(ES)アルゴリズムは複雑なロボット制御ポリシーのトレーニングにおいて有望な結果を示している。
PI-ARSは、勾配に基づく表現学習技術、予測情報(PI)と勾配のないESアルゴリズム、拡張ランダム探索(ARS)を組み合わせた。
PI-ARS は ARS ベースラインに比べて学習効率と性能が有意に向上していることを示す。
論文 参考訳(メタデータ) (2022-07-27T00:26:15Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Strategy Discovery and Mixture in Lifelong Learning from Heterogeneous
Demonstration [1.2891210250935146]
実証から学ぶ(LfD)アプローチは、エンドユーザに望ましい振る舞いのデモンストレーションを通じて、ロボットに新しいタスクを教えることを促す。
本稿では,異種間における共通知識を抽出する動的マルチストラテジー・リワード蒸留法(DMSRD)を提案する。
当社のパーソナライズ、フェデレーション、生涯にわたるLfDアーキテクチャは、2つの継続的制御問題におけるベンチマークを上回り、ポリシーリターンは平均77%、ログリターンは42%改善しています。
論文 参考訳(メタデータ) (2022-02-14T20:10:25Z) - Shaped Policy Search for Evolutionary Strategies using Waypoints [17.8055398673228]
我々はブラックボックス法、特に進化戦略(ES)の探索を改善しようとしている。
ロールアウト/評価時に得られた軌跡から得られた状態-作用対を用いてエージェントのダイナミクスを学習する。
学習したダイナミクスは、トレーニングを高速化する最適化手順で使用される。
論文 参考訳(メタデータ) (2021-05-30T22:15:06Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z) - Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning [65.88200578485316]
本稿では,ロボットが動的変化に迅速に適応できるメタ学習手法を提案する。
提案手法は高雑音環境における動的変化への適応性を著しく改善する。
我々は、動的に変化しながら歩くことを学習する四足歩行ロボットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-03-02T22:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。