論文の概要: Concurrent Training of a Control Policy and a State Estimator for
Dynamic and Robust Legged Locomotion
- arxiv url: http://arxiv.org/abs/2202.05481v1
- Date: Fri, 11 Feb 2022 06:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 16:35:15.011072
- Title: Concurrent Training of a Control Policy and a State Estimator for
Dynamic and Robust Legged Locomotion
- Title(参考訳): 動的かつロバストな脚歩行のための制御ポリシーと状態推定器の同時学習
- Authors: Gwanghyeon Ji, Juhyeok Mun, Hyeongjun Kim, Jemin Hwangbo
- Abstract要約: このフレームワークは、所望の関節位置を出力するポリシーネットワークと、ロボットの状態の見積を出力する状態推定ネットワークとから構成される。
我々は高速なシミュレーション環境を利用してネットワークを訓練し、訓練されたネットワークを実際のロボットに転送する。
訓練された政策と状態推定器は、丘、滑りやすいプレート、傾斜した道路などの多様な地形を横断することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a locomotion training framework where a control
policy and a state estimator are trained concurrently. The framework consists
of a policy network which outputs the desired joint positions and a state
estimation network which outputs estimates of the robot's states such as the
base linear velocity, foot height, and contact probability. We exploit a fast
simulation environment to train the networks and the trained networks are
transferred to the real robot. The trained policy and state estimator are
capable of traversing diverse terrains such as a hill, slippery plate, and
bumpy road. We also demonstrate that the learned policy can run at up to 3.75
m/s on normal flat ground and 3.54 m/s on a slippery plate with the coefficient
of friction of 0.22.
- Abstract(参考訳): 本稿では,制御ポリシと状態推定器を同時にトレーニングする移動学習フレームワークを提案する。
フレームワークは、所望の関節位置を出力するポリシーネットワークと、ベース線形速度、足の高さ、接触確率などのロボットの状態の推定を出力する状態推定ネットワークとから構成される。
高速シミュレーション環境を利用してネットワークを訓練し、訓練されたネットワークを実際のロボットに転送する。
訓練された政策と状態推定器は、丘、滑りやすいプレート、傾斜した道路などの多様な地形を横断することができる。
また, 平地では最大3.75 m/s, 平地では3.54 m/s, 摩擦係数0.22のすべり板上では3.54 m/sの学習方針が実行可能であることを示した。
関連論文リスト
- Modular Neural Network Policies for Learning In-Flight Object Catching
with a Robot Hand-Arm System [55.94648383147838]
本稿では,ロボットハンドアームシステムによる飛行物体の捕獲方法の学習を可能にするモジュラーフレームワークを提案する。
本フレームワークは,物体の軌跡予測を学習するオブジェクト状態推定器,(ii)捕捉対象のポーズのスコアとランク付けを学ぶキャッチポーズ品質ネットワーク,(iii)ロボットハンドをキャッチ前ポーズに移動させるように訓練されたリーチ制御ポリシ,(iv)ソフトキャッチ動作を行うように訓練された把握制御ポリシの5つのコアモジュールから構成される。
各モジュールと統合システムのシミュレーションにおいて、我々のフレームワークを広範囲に評価し、飛行における高い成功率を示す。
論文 参考訳(メタデータ) (2023-12-21T16:20:12Z) - Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。
実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文 参考訳(メタデータ) (2022-07-05T16:33:20Z) - Learning multiobjective rough terrain traversability [0.0]
本研究では, 地形の高分解能地形データと地上車両シミュレーションを用いて, トラバーサビリティの予測を行う手法を提案する。
深層ニューラルネットワークは、局所的なハイトマップと目標速度からトラバーサビリティ対策を予測するために訓練される。
従来は見つからなかったレーザ走査型森林地形のモデルについて検討した。
論文 参考訳(メタデータ) (2022-03-30T14:31:43Z) - Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement
Learning [2.930703970709558]
我々は,1台のワークステーションGPU上で大規模並列処理を用いることで,実世界のロボットタスクの高速なポリシー生成を実現するトレーニングセットを提示し,研究する。
我々は,大規模並列システムにおける異なるトレーニングアルゴリズムコンポーネントが最終ポリシー性能とトレーニング時間に与える影響を分析し,議論する。
本稿では,何千ものシミュレーションロボットを並列に学習するのに適した,ゲームに触発された新しいカリキュラムを提案する。
論文 参考訳(メタデータ) (2021-09-24T14:04:19Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - CARLA Real Traffic Scenarios -- novel training ground and benchmark for
autonomous driving [8.287331387095545]
本研究では,実世界のトラフィックに基づくCARLAシミュレータにおけるインタラクティブな交通シナリオについて紹介する。
我々は数秒間続く戦術的タスクに集中しており、これは現在の制御方法では特に困難である。
CARLA Real Traffic Scenarios(CRTS)は、自動運転システムのトレーニングとテストの場になることを意図しています。
論文 参考訳(メタデータ) (2020-12-16T13:20:39Z) - RLOC: Terrain-Aware Legged Locomotion using Reinforcement Learning and
Optimal Control [6.669503016190925]
四元計画と制御のためのモデルベースとデータ駆動の統一的アプローチを提案する。
センサ情報と所望のベース速度コマンドを、強化学習ポリシーを用いて足踏み計画にマッピングする。
我々は、複雑な四足歩行システムであるANYmal Bの枠組みを訓練し、再訓練を必要とせず、より大きく重いロボットであるANYmal Cへの移動性を示す。
論文 参考訳(メタデータ) (2020-12-05T18:30:23Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Learning from Simulation, Racing in Reality [126.56346065780895]
ミニチュアレースカープラットフォーム上で自律的なレースを行うための強化学習ベースのソリューションを提案する。
シミュレーションで純粋に訓練されたポリシーは、実際のロボットのセットアップにうまく移行できることを示す。
論文 参考訳(メタデータ) (2020-11-26T14:58:49Z) - On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning
and SLAM Based Approach [7.488722678999039]
本研究では,未知環境下を走行する移動ロボットを対象とした,深層強化学習(DRL)に基づくマップレス経路計画アルゴリズムを提案する。
プランナーは、トレーニング環境の地図のオンライン知識に基づいて、報酬関数を用いて訓練される。
シミュレーション環境で訓練されたポリシーを直接、実際のロボットに転送し、成功させることができる。
論文 参考訳(メタデータ) (2020-02-10T22:00:16Z) - Intelligent Roundabout Insertion using Deep Reinforcement Learning [68.8204255655161]
本稿では,多忙なラウンドアバウンドの入場を交渉できる演習計画モジュールを提案する。
提案されたモジュールは、トレーニングされたニューラルネットワークに基づいて、操作の全期間にわたって、ラウンドアバウンドに入るタイミングと方法を予測する。
論文 参考訳(メタデータ) (2020-01-03T11:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。