論文の概要: Accelerated Sim-to-Real Deep Reinforcement Learning: Learning Collision
Avoidance from Human Player
- arxiv url: http://arxiv.org/abs/2102.10711v1
- Date: Sun, 21 Feb 2021 23:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 20:23:58.287079
- Title: Accelerated Sim-to-Real Deep Reinforcement Learning: Learning Collision
Avoidance from Human Player
- Title(参考訳): 深層強化学習の高速化:人間プレイヤーからの衝突回避学習
- Authors: Hanlin Niu, Ze Ji, Farshad Arvin, Barry Lennox, Hujun Yin, and Joaquin
Carrasco
- Abstract要約: 本稿では,移動ロボットに使用するセンサレベルマップレス衝突回避アルゴリズムを提案する。
ロボットが人間体験データと自己探索データの両方から学習できるように,効率的な学習戦略を提案する。
ゲームフォーマットシミュレーションフレームワークは、人間のプレイヤーがモバイルロボットを目標まで遠隔操作できるように設計されている。
- 参考スコア(独自算出の注目度): 5.960346570280513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a sensor-level mapless collision avoidance algorithm for
use in mobile robots that map raw sensor data to linear and angular velocities
and navigate in an unknown environment without a map. An efficient training
strategy is proposed to allow a robot to learn from both human experience data
and self-exploratory data. A game format simulation framework is designed to
allow the human player to tele-operate the mobile robot to a goal and human
action is also scored using the reward function. Both human player data and
self-playing data are sampled using prioritized experience replay algorithm.
The proposed algorithm and training strategy have been evaluated in two
different experimental configurations: \textit{Environment 1}, a simulated
cluttered environment, and \textit{Environment 2}, a simulated corridor
environment, to investigate the performance. It was demonstrated that the
proposed method achieved the same level of reward using only 16\% of the
training steps required by the standard Deep Deterministic Policy Gradient
(DDPG) method in Environment 1 and 20\% of that in Environment 2. In the
evaluation of 20 random missions, the proposed method achieved no collision in
less than 2~h and 2.5~h of training time in the two Gazebo environments
respectively. The method also generated smoother trajectories than DDPG. The
proposed method has also been implemented on a real robot in the real-world
environment for performance evaluation. We can confirm that the trained model
with the simulation software can be directly applied into the real-world
scenario without further fine-tuning, further demonstrating its higher
robustness than DDPG. The video and code are available:
https://youtu.be/BmwxevgsdGc
https://github.com/hanlinniu/turtlebot3_ddpg_collision_avoidance
- Abstract(参考訳): 本稿では,センサレベルのマップレス衝突回避アルゴリズムを提案する。このアルゴリズムは,センサデータを線形および角速度にマッピングし,地図のない未知環境をナビゲートする移動ロボットである。
ロボットが人間体験データと自己探索データの両方から学習できるように,効率的な学習戦略を提案する。
ゲームフォーマットシミュレーションフレームワークは、人間が移動ロボットを目標に遠隔操作できるように設計され、報酬関数を用いて人間のアクションもスコアされる。
人間のプレイヤーデータと自己再生データは、優先された体験再生アルゴリズムを用いてサンプリングされる。
提案手法と学習戦略は,シミュレーション環境である \textit{environment 1} とシミュレーション廊下環境である \textit{environment 2} の2つの異なる実験構成で評価し,その性能について検討した。
提案手法は,環境1および環境2の20\%において,標準的Deep Deterministic Policy Gradient (DDPG)法が要求するトレーニングステップの16\%のみを用いて,同じレベルの報酬を得ていることを示した。
20回のランダムミッションの評価において,提案手法はガゼボの2つの環境において,訓練時間の2~h未満と2.5~h未満で衝突することはなかった。
また、DDPGよりもスムーズな軌道も生成した。
提案手法は実環境における実ロボットにも実装され,性能評価を行った。
シミュレーションソフトウェアを用いてトレーニングしたモデルは,さらに微調整することなく実世界のシナリオに直接適用可能であることを確認でき,DDPGよりも高い堅牢性を示すことができる。
https://youtu.be/BmwxevgsdGc https://github.com/hanlinniu/turtlebot3_ddpg_collision_avoidance
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文 参考訳(メタデータ) (2023-04-24T13:24:00Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Off Environment Evaluation Using Convex Risk Minimization [0.0]
本稿では,シミュレータと対象領域間のモデルミスマッチを推定する凸リスク最小化アルゴリズムを提案する。
対象領域におけるRLエージェントの性能を評価するために,シミュレータとともにこの推定器を使用できることを示す。
論文 参考訳(メタデータ) (2021-12-21T21:31:54Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Passing Through Narrow Gaps with Deep Reinforcement Learning [2.299414848492227]
本稿では,小さな隙間を自律的に航行する深層強化学習手法を提案する。
我々はまず,ロボットとギャップとの接触が必要な小さなギャップを乗り越えるために,ギャップ行動ポリシーを学習する。
シミュレーション実験では,操作者が手動でギャップ動作を動作させると,93%の成功率が得られる。
実際のロボット実験では、手動アクティベーションで73%、自律的な行動選択で40%の成功率を達成した。
論文 参考訳(メタデータ) (2021-03-06T00:10:41Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning
and SLAM Based Approach [7.488722678999039]
本研究では,未知環境下を走行する移動ロボットを対象とした,深層強化学習(DRL)に基づくマップレス経路計画アルゴリズムを提案する。
プランナーは、トレーニング環境の地図のオンライン知識に基づいて、報酬関数を用いて訓練される。
シミュレーション環境で訓練されたポリシーを直接、実際のロボットに転送し、成功させることができる。
論文 参考訳(メタデータ) (2020-02-10T22:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。