論文の概要: Learning and Deploying Robust Locomotion Policies with Minimal Dynamics
Randomization
- arxiv url: http://arxiv.org/abs/2209.12878v1
- Date: Mon, 26 Sep 2022 17:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 17:17:55.735359
- Title: Learning and Deploying Robust Locomotion Policies with Minimal Dynamics
Randomization
- Title(参考訳): 最小ダイナミクスランダム化によるロバストロコモーションポリシーの学習と展開
- Authors: Luigi Campanaro, Siddhant Gangapurwala, Wolfgang Merkt and Ioannis
Havoutis
- Abstract要約: トレーニング中の摂動力学に対するランダム力注入(RFI)の簡単な戦略について検討する。
ランダム力の適用により、動的ランダム化をエミュレートできることを示す。
ERFIは、システム質量の変動に対して、RFIよりも平均して61%向上した性能に対して、さらなるロバスト性を提供することを示した。
- 参考スコア(独自算出の注目度): 13.554756318674777
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training deep reinforcement learning (DRL) locomotion policies often requires
massive amounts of data to converge to the desired behavior. In this regard,
simulators provide a cheap and abundant source. For successful sim-to-real
transfer, exhaustively engineered approaches such as system identification,
dynamics randomization, and domain adaptation are generally employed. As an
alternative, we investigate a simple strategy of random force injection (RFI)
to perturb system dynamics during training. We show that the application of
random forces enables us to emulate dynamics randomization.This allows us to
obtain locomotion policies that are robust to variations in system dynamics. We
further extend RFI, referred to as extended random force injection (ERFI), by
introducing an episodic actuation offset. We demonstrate that ERFI provides
additional robustness for variations in system mass offering on average a 61%
improved performance over RFI. We also show that ERFI is sufficient to perform
a successful sim-to-real transfer on two different quadrupedal platforms,
ANYmal C and Unitree A1, even for perceptive locomotion over uneven terrain in
outdoor environments.
- Abstract(参考訳): 深層強化学習(DRL)のロコモーションポリシーの訓練は、望まれる行動に収束するために大量のデータを必要とすることが多い。
この点において、シミュレータは安価で豊富なソースを提供する。
sim-to-real転送を成功させるためには、システム識別、動的ランダム化、ドメイン適応といった徹底的に設計されたアプローチが一般的である。
その代替として、トレーニング中の摂動系力学に対するランダム・フォース・インジェクション(RFI)の簡単な戦略を検討する。
我々は,ランダムな力の応用により,動的ランダム化をエミュレートできることを示し,システムダイナミクスの変動にロバストなロコモーションポリシーを得ることができることを示した。
さらに、エピソディックアクティベーションオフセットを導入することで、拡張ランダム力注入(extended random force injection:erfi)と呼ばれるrfiをさらに拡張する。
ERFIはシステム質量の変動に対して,RFIよりも平均して61%向上した性能を示す。
また,ERFIは,屋外環境における不均一な地形上での知覚的移動においても,ANYmal CとUnitree A1の2つの異なる四面体プラットフォーム上でのシミュ---リアル移動を成功させるのに十分であることを示す。
関連論文リスト
- Controllable Safety-Critical Closed-loop Traffic Simulation via Guided
Diffusion [100.4988219600854]
誘導拡散モデルに根ざした新しいクローズドループシミュレーションフレームワークを提案する。
提案手法は, 現実の条件を密にエミュレートする現実的なロングテールシナリオの生成と, 制御性の向上という, 二つの異なる利点をもたらす。
我々はNuScenesデータセットを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Domain Randomization via Entropy Maximization [34.71843027232766]
そこで本研究では,実世界のデータを必要としないシミュレーションにおいて,シミュレーション中の動的分布を自動的に生成する,sim-to-realトランスファーに対処する新しい手法を提案する。
トレーニング分布のエントロピーを直接最大化する制約付き最適化問題であるEntropy Maximization (DORAEMON) によるDOmain RAndomizationを導入する。
我々は、高度に適応的で一般化可能な政策を得る上で、DORAEMONの一貫性のある利点を実証的に検証する。
論文 参考訳(メタデータ) (2023-11-03T12:54:05Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Residual Physics Learning and System Identification for Sim-to-real
Transfer of Policies on Buoyancy Assisted Legged Robots [14.760426243769308]
本研究では,BALLUロボットのシステム識別による制御ポリシのロバストなシミュレートを実演する。
標準的な教師あり学習の定式化に頼るのではなく、深層強化学習を利用して外部力政策を訓練する。
シミュレーショントラジェクトリと実世界のトラジェクトリを比較することで,改良されたシミュレーション忠実度を解析する。
論文 参考訳(メタデータ) (2023-03-16T18:49:05Z) - Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。
本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文 参考訳(メタデータ) (2023-03-07T18:50:00Z) - Generative AI-empowered Simulation for Autonomous Driving in Vehicular
Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。
現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。
生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-16T16:54:10Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - Objective-aware Traffic Simulation via Inverse Reinforcement Learning [31.26257563160961]
逆強化学習問題として交通シミュレーションを定式化する。
動的ロバストシミュレーション学習のためのパラメータ共有逆強化学習モデルを提案する。
提案モデルでは,実世界の車両の軌道を模倣し,同時に報酬関数を復元することができる。
論文 参考訳(メタデータ) (2021-05-20T07:26:34Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - RLOC: Terrain-Aware Legged Locomotion using Reinforcement Learning and
Optimal Control [6.669503016190925]
四元計画と制御のためのモデルベースとデータ駆動の統一的アプローチを提案する。
センサ情報と所望のベース速度コマンドを、強化学習ポリシーを用いて足踏み計画にマッピングする。
我々は、複雑な四足歩行システムであるANYmal Bの枠組みを訓練し、再訓練を必要とせず、より大きく重いロボットであるANYmal Cへの移動性を示す。
論文 参考訳(メタデータ) (2020-12-05T18:30:23Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。