論文の概要: Passing Through Narrow Gaps with Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.03991v1
- Date: Sat, 6 Mar 2021 00:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 17:22:57.717642
- Title: Passing Through Narrow Gaps with Deep Reinforcement Learning
- Title(参考訳): 深層強化学習による狭小ギャップの通過
- Authors: Brendan Tidd, Akansel Cosgun, Jurgen Leitner, and Nicolas Hudson
- Abstract要約: 本稿では,小さな隙間を自律的に航行する深層強化学習手法を提案する。
我々はまず,ロボットとギャップとの接触が必要な小さなギャップを乗り越えるために,ギャップ行動ポリシーを学習する。
シミュレーション実験では,操作者が手動でギャップ動作を動作させると,93%の成功率が得られる。
実際のロボット実験では、手動アクティベーションで73%、自律的な行動選択で40%の成功率を達成した。
- 参考スコア(独自算出の注目度): 2.299414848492227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The DARPA subterranean challenge requires teams of robots to traverse
difficult and diverse underground environments. Traversing small gaps is one of
the challenging scenarios that robots encounter. Imperfect sensor information
makes it difficult for classical navigation methods, where behaviours require
significant manual fine tuning. In this paper we present a deep reinforcement
learning method for autonomously navigating through small gaps, where contact
between the robot and the gap may be required. We first learn a gap behaviour
policy to get through small gaps (only centimeters wider than the robot). We
then learn a goal-conditioned behaviour selection policy that determines when
to activate the gap behaviour policy. We train our policies in simulation and
demonstrate their effectiveness with a large tracked robot in simulation and on
the real platform. In simulation experiments, our approach achieves 93% success
rate when the gap behaviour is activated manually by an operator, and 67% with
autonomous activation using the behaviour selection policy. In real robot
experiments, our approach achieves a success rate of 73% with manual
activation, and 40% with autonomous behaviour selection. While we show the
feasibility of our approach in simulation, the difference in performance
between simulated and real world scenarios highlight the difficulty of direct
sim-to-real transfer for deep reinforcement learning policies. In both the
simulated and real world environments alternative methods were unable to
traverse the gap.
- Abstract(参考訳): DARPA地下挑戦では、ロボットのチームが困難で多様な地下環境を横断する必要があります。
小さなギャップを横切ることは、ロボットが遭遇する難しいシナリオの1つだ。
不完全なセンサー情報は、手動の微調整を必要とする古典的なナビゲーション手法では困難である。
本稿では,ロボットとギャップとの接触が必要な小さな隙間を自律的に移動するための深層強化学習手法を提案する。
私たちはまず、小さなギャップ(ロボットよりもわずかセンチメートル幅)を通り抜けるためのギャップ行動ポリシーを学びます。
次に,目標条件付き行動選択ポリシーを学習し,ギャップ行動ポリシーをいつ有効にするかを決定する。
我々はシミュレーションでポリシーを訓練し,シミュレーションおよび実プラットフォーム上での大規模追従ロボットの有効性を実証する。
シミュレーション実験では,操作者がギャップ動作を手動でアクティベートした場合の93%成功率,行動選択ポリシーを用いた自律的アクティベーションでは67%を達成した。
実際のロボット実験では、手動アクティベーションで73%、自律的な行動選択で40%の成功率を達成した。
シミュレーションによるアプローチの実現可能性を示す一方で,シミュレーションと実世界のシナリオにおける性能の違いは,深層強化学習方針における直接sim-to-real転送の難しさを浮き彫りにしている。
シミュレーション環境と実環境の両方において、別の手法ではギャップを越えられなかった。
関連論文リスト
- Dynamics as Prompts: In-Context Learning for Sim-to-Real System Identifications [23.94013806312391]
そこで本研究では,テキスト内学習を用いてシミュレーション環境パラメータを動的に調整する手法を提案する。
オブジェクトスクーピングとテーブルエアホッケーという2つのタスクにまたがるアプローチを検証する。
提案手法は,ロボットの動的現実シナリオへの展開を推し進め,効率的かつスムーズなシステム識別を実現する。
論文 参考訳(メタデータ) (2024-10-27T07:13:38Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文 参考訳(メタデータ) (2023-03-07T08:16:46Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free
Reinforcement Learning [86.06110576808824]
深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。
機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界では4分で学習できる。
論文 参考訳(メタデータ) (2022-08-16T17:37:36Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。