論文の概要: From Pixels to Legs: Hierarchical Learning of Quadruped Locomotion
- arxiv url: http://arxiv.org/abs/2011.11722v1
- Date: Mon, 23 Nov 2020 20:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:52:14.611184
- Title: From Pixels to Legs: Hierarchical Learning of Quadruped Locomotion
- Title(参考訳): ピクセルから脚へ:四足歩行の階層的学習
- Authors: Deepali Jain, Atil Iscen, Ken Caluwaerts
- Abstract要約: 階層的強化学習(HRL)により,四足歩行ロボットがこれらのスキルを両立させることができることを示す。
私たちは、カーブした崖と迷路という2つの異なる環境を歩くようにポリシーを訓練します。
階層型ポリシは,これらの環境において,同時にロココントとナビゲートを学習し,非階層型ニューラルネットワークポリシよりも効率的であることを示す。
- 参考スコア(独自算出の注目度): 5.725078552513519
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Legged robots navigating crowded scenes and complex terrains in the real
world are required to execute dynamic leg movements while processing visual
input for obstacle avoidance and path planning. We show that a quadruped robot
can acquire both of these skills by means of hierarchical reinforcement
learning (HRL). By virtue of their hierarchical structure, our policies learn
to implicitly break down this joint problem by concurrently learning High Level
(HL) and Low Level (LL) neural network policies. These two levels are connected
by a low dimensional hidden layer, which we call latent command. HL receives a
first-person camera view, whereas LL receives the latent command from HL and
the robot's on-board sensors to control its actuators. We train policies to
walk in two different environments: a curved cliff and a maze. We show that
hierarchical policies can concurrently learn to locomote and navigate in these
environments, and show they are more efficient than non-hierarchical neural
network policies. This architecture also allows for knowledge reuse across
tasks. LL networks trained on one task can be transferred to a new task in a
new environment. Finally HL, which processes camera images, can be evaluated at
much lower and varying frequencies compared to LL, thus reducing computation
times and bandwidth requirements.
- Abstract(参考訳): 障害物回避と経路計画のために視覚入力を処理しながら、現実の混み合ったシーンや複雑な地形をナビゲートする脚ロボットが必要である。
四足歩行ロボットは階層的強化学習(hrl)により,これら2つのスキルを習得できることを示す。
階層構造により、我々のポリシーは、高レベル(HL)と低レベル(LL)のニューラルネットワークポリシを同時に学習することで、この結合問題を暗黙的に分解することを学ぶ。
これら2つのレベルは低次元の隠蔽層によって接続される。
HLは1対1のカメラビューを受け取り、LLはHLとロボットの内蔵センサーから潜在コマンドを受け取り、アクチュエータを制御する。
私たちは、湾曲した崖と迷路の2つの異なる環境を歩くポリシーを訓練します。
階層的ポリシは,これらの環境においてロコモティとナビゲートを同時に学習し,非階層的ニューラルネットワークポリシよりも効率的であることを示す。
このアーキテクチャはタスク間の知識の再利用も可能にする。
1つのタスクでトレーニングされたllネットワークは、新しい環境で新しいタスクに転送できる。
最後に、カメラ画像を処理するHLは、LLに比べてずっと低い周波数で評価することができ、計算時間と帯域幅の要求を低減できる。
関連論文リスト
- WildLMa: Long Horizon Loco-Manipulation in the Wild [18.542469512253295]
In-the-wildモバイル操作は、さまざまな現実世界環境にロボットを配置することを目的としている。
WildLMaは、模倣や学習プランナーを通じて得られる、汎用的なビズモータスキルのライブラリである。
我々は,大学の廊下や屋外の地形でゴミを掃除するなど,実用的なロボット応用を実演する。
論文 参考訳(メタデータ) (2024-11-22T18:56:56Z) - Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models [63.89598561397856]
室内環境における四足歩行操作のためのシステムを提案する。
オブジェクト操作にはフロントマウントのグリップを使用しており、アジャイルスキルにエゴセントリックな深さを使ってシミュレーションでトレーニングされた低レベルのコントローラである。
実世界のデータ収集やトレーニングを行なわずに、2つの目に見えない環境でシステムを評価する。
論文 参考訳(メタデータ) (2024-09-30T20:58:38Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - LPAC: Learnable Perception-Action-Communication Loops with Applications
to Coverage Control [80.86089324742024]
本稿では,その問題に対する学習可能なパーセプション・アクション・コミュニケーション(LPAC)アーキテクチャを提案する。
CNNは局所認識を処理する。グラフニューラルネットワーク(GNN)はロボットのコミュニケーションを促進する。
評価の結果,LPACモデルは標準分散型および集中型カバレッジ制御アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-01-10T00:08:00Z) - Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。
タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。
我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文 参考訳(メタデータ) (2022-06-21T19:01:19Z) - Learning a State Representation and Navigation in Cluttered and Dynamic
Environments [6.909283975004628]
本稿では,四足ロボットによる局所ナビゲーションを実現するための学習ベースのパイプラインを提案する。
ロボットは、環境を明示的にマッピングすることなく、奥行きカメラのフレームに基づいて、安全な場所へ移動することができる。
本システムでは,ノイズの多い奥行き画像の処理が可能であり,訓練中の動的障害物を回避でき,局所的な空間意識を付与できることを示す。
論文 参考訳(メタデータ) (2021-03-07T13:19:06Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Learning Affordance Landscapes for Interaction Exploration in 3D
Environments [101.90004767771897]
エージェントは環境の仕組みを習得できなければならない。
相互作用探索のための強化学習手法を提案する。
AI2-iTHORで私たちのアイデアを実証します。
論文 参考訳(メタデータ) (2020-08-21T00:29:36Z) - Transferable Task Execution from Pixels through Deep Planning Domain
Learning [46.88867228115775]
階層モデルを学ぶために,DPDL(Deep Planning Domain Learning)を提案する。
DPDLは、現在の象徴的世界状態からなる論理述語セットの値を予測する高レベルモデルを学ぶ。
これにより、ロボットが明示的に訓練されていなくても、複雑なマルチステップタスクを実行できます。
論文 参考訳(メタデータ) (2020-03-08T05:51:04Z) - Reinforcement co-Learning of Deep and Spiking Neural Networks for
Energy-Efficient Mapless Navigation with Neuromorphic Hardware [0.0]
スパイキングニューラルネットワークのエネルギー効率と深部強化学習(DRL)の最適性を組み合わせたニューロモルフィックアプローチを提案する。
筆者らのフレームワークは,スパイクアクターネットワーク(SAN)と深い批判ネットワークから構成されており,この2つのネットワークは勾配降下を用いて共同で訓練されている。
アプローチを評価するため、トレーニング済みのSANをIntelのLoihiニューロモルフィックプロセッサにデプロイした。
論文 参考訳(メタデータ) (2020-03-02T19:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。