論文の概要: Accelerated Policy Learning with Parallel Differentiable Simulation
- arxiv url: http://arxiv.org/abs/2204.07137v1
- Date: Thu, 14 Apr 2022 17:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 13:07:35.061233
- Title: Accelerated Policy Learning with Parallel Differentiable Simulation
- Title(参考訳): 並列微分可能シミュレーションによる政策学習の高速化
- Authors: Jie Xu, Viktor Makoviychuk, Yashraj Narang, Fabio Ramos, Wojciech
Matusik, Animesh Garg, Miles Macklin
- Abstract要約: 微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
- 参考スコア(独自算出の注目度): 59.665651562534755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning can generate complex control policies, but
requires large amounts of training data to work effectively. Recent work has
attempted to address this issue by leveraging differentiable simulators.
However, inherent problems such as local minima and exploding/vanishing
numerical gradients prevent these methods from being generally applied to
control tasks with complex contact-rich dynamics, such as humanoid locomotion
in classical RL benchmarks. In this work we present a high-performance
differentiable simulator and a new policy learning algorithm (SHAC) that can
effectively leverage simulation gradients, even in the presence of
non-smoothness. Our learning algorithm alleviates problems with local minima
through a smooth critic function, avoids vanishing/exploding gradients through
a truncated learning window, and allows many physical environments to be run in
parallel. We evaluate our method on classical RL control tasks, and show
substantial improvements in sample efficiency and wall-clock time over
state-of-the-art RL and differentiable simulation-based algorithms. In
addition, we demonstrate the scalability of our method by applying it to the
challenging high-dimensional problem of muscle-actuated locomotion with a large
action space, achieving a greater than 17x reduction in training time over the
best-performing established RL algorithm.
- Abstract(参考訳): 深層強化学習は複雑な制御ポリシーを生成するが、効果的に働くために大量のトレーニングデータを必要とする。
最近の研究は、微分可能シミュレータを利用してこの問題に対処しようとしている。
しかしながら、局所的ミニマや爆発・爆発といった固有の問題は、古典的rlベンチマークにおけるヒューマノイド運動のような複雑な接触-リッチダイナミクスを伴うタスクの制御に一般的に適用されない。
本研究では,非滑らか性が存在する場合でも,シミュレーション勾配を効果的に活用できる高性能微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
学習アルゴリズムは,局所的ミニマ問題に対して,スムースな批判関数による軽減,縮小学習ウィンドウによる勾配の消失・爆発の回避,多数の物理環境の並列実行を可能にする。
本手法は従来のRL制御タスクにおいて評価され,サンプル効率と壁面時間において,最先端のRLと微分可能なシミュレーションベースアルゴリズムよりも大幅に向上した。
さらに,本手法のスケーラビリティを,筋運動の高次元問題に適用し,高い動作空間を有する高次元問題に適用し,最適性能のRLアルゴリズムよりも17倍以上のトレーニング時間を短縮できることを示す。
関連論文リスト
- Offline reinforcement learning for job-shop scheduling problems [1.3927943269211593]
本稿では,複雑な制約を伴う最適化問題に対して,新しいオフラインRL法を提案する。
我々のアプローチは、エッジ属性のアクションを符号化し、専門家ソリューションの模倣と期待される報酬のバランスをとる。
本手法がジョブショップスケジューリングおよびフレキシブルジョブショップスケジューリングベンチマークに与える影響を実証する。
論文 参考訳(メタデータ) (2024-10-21T07:33:42Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation [36.308936312224404]
本稿では, FO-MBRLアルゴリズムであるAdaptive Horizon Actor-Critic (AHAC)を提案する。
実験結果から,AHACはMFRLベースラインより優れており,ローコモーションタスク全体で40%以上の報酬が得られ,壁面時間効率が向上した高次元制御環境への効率なスケーリングが可能であった。
論文 参考訳(メタデータ) (2024-05-28T03:28:00Z) - Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space [3.639580365066386]
本稿では,トレーニング中の対向摂動の影響を調整するための適応的対向係数フレームワークを提案する。
提案手法の特長は,実世界のアプリケーションに簡単にデプロイでき,シミュレータに事前にアクセスする必要がなくなることである。
MuJoCoの実験から,本手法はトレーニングの安定性を向上し,異なるテスト環境に移行する際の堅牢なポリシを学習できることが示された。
論文 参考訳(メタデータ) (2024-05-20T12:31:11Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Critic Sequential Monte Carlo [15.596665321375298]
CriticSMCは、ソフトQ関数係数を持つシーケンシャルモンテカルロの新たな合成から構築された推論として計画する新しいアルゴリズムである。
シミュレーションにおける自動運転車衝突回避実験は、計算労力に対する屈折の最小化の観点から、ベースラインに対する改善を実証する。
論文 参考訳(メタデータ) (2022-05-30T23:14:24Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling [8.14784681248878]
本稿では,現実的なスケジューリング問題を解決するための強化学習手法を提案する。
高性能コンピューティングコミュニティにおいて一般的に実行されるアルゴリズムであるColesky Factorizationに適用する。
我々のアルゴリズムは,アクター・クリティカル・アルゴリズム (A2C) と組み合わせてグラフニューラルネットワークを用いて,問題の適応表現をオンザフライで構築する。
論文 参考訳(メタデータ) (2020-11-09T10:57:21Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。