論文の概要: End-to-end grasping policies for human-in-the-loop robots via deep
reinforcement learning
- arxiv url: http://arxiv.org/abs/2104.12842v1
- Date: Mon, 26 Apr 2021 19:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 13:23:59.548583
- Title: End-to-end grasping policies for human-in-the-loop robots via deep
reinforcement learning
- Title(参考訳): 深層強化学習によるループ型ロボットのエンドツーエンド把持政策
- Authors: Mohammadreza Sharif, Deniz Erdogmus, Christopher Amato, and Taskin
Padir
- Abstract要約: 最新の人間インザループロボットの把握は、EMG(Electromy robustness)推論の問題に大きく苦しんでいます。
本研究では,現実の到達軌道を捉えたループ内ロボットのポリシーをエンドツーエンドでトレーニングする手法を提案する。
- 参考スコア(独自算出の注目度): 24.407804468007228
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art human-in-the-loop robot grasping is hugely suffered by
Electromyography (EMG) inference robustness issues. As a workaround,
researchers have been looking into integrating EMG with other signals, often in
an ad hoc manner. In this paper, we are presenting a method for end-to-end
training of a policy for human-in-the-loop robot grasping on real reaching
trajectories. For this purpose we use Reinforcement Learning (RL) and Imitation
Learning (IL) in DEXTRON (DEXTerity enviRONment), a stochastic simulation
environment with real human trajectories that are augmented and selected using
a Monte Carlo (MC) simulation method. We also offer a success model which once
trained on the expert policy data and the RL policy roll-out transitions, can
provide transparency to how the deep policy works and when it is probably going
to fail.
- Abstract(参考訳): 最先端の人型ロボットの把握は、EMG(Electromyography)推論の堅牢性の問題に悩まされている。
回避策として、研究者たちは、しばしばアドホックな方法で、他の信号とEMGを統合することを検討している。
本稿では,実際に到達する軌道を把握したロボットのためのポリシーをエンドツーエンドに学習する手法を提案する。
この目的のために,モンテカルロ(MC)シミュレーション法を用いて,実人軌道を用いた確率的シミュレーション環境であるDEXTRON(DEXTerity environment)における強化学習(RL)と模倣学習(IL)を用いる。
また、専門家のポリシーデータとrlポリシーのロールアウト移行に基づいてトレーニングされた成功モデルも提供しています。
関連論文リスト
- Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文 参考訳(メタデータ) (2023-03-07T08:16:46Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Learning from humans: combining imitation and deep reinforcement
learning to accomplish human-level performance on a virtual foraging task [6.263481844384228]
本研究では,ヒトデータを用いたバイオインスパイアされた採餌政策の学習方法を開発した。
オープンフィールドの養殖環境に人間が仮想的に没入し、最高の報酬を集めるために訓練される実験を行う。
論文 参考訳(メタデータ) (2022-03-11T20:52:30Z) - AGPNet -- Autonomous Grading Policy Network [0.5232537118394002]
マルコフ決定過程として問題を定式化し,エージェントと環境の相互作用を示すシミュレーションを設計する。
我々は、強化学習、行動クローニング、コントラスト学習などの手法を用いて、ハイブリッド政策を訓練する。
我々の訓練されたエージェントであるAGPNetは、人間レベルのパフォーマンスに達し、自律的なグルーピングタスクのために現在の最先端の機械学習手法より優れています。
論文 参考訳(メタデータ) (2021-12-20T21:44:21Z) - LBGP: Learning Based Goal Planning for Autonomous Following in Front [16.13120109400351]
本稿では, 深部強化学習(RL)と古典的軌道計画を組み合わせたハイブリッド・ソリューションについて検討する。
自律ロボットは、人が自由に歩き回るとき、人の前に留まることを目的としています。
本システムは,シミュレーションと実世界実験の両方において,エンド・ツー・エンドの代替品と比較して,先行技術よりも信頼性が高い。
論文 参考訳(メタデータ) (2020-11-05T22:29:30Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z) - Multiplicative Controller Fusion: Leveraging Algorithmic Priors for
Sample-efficient Reinforcement Learning and Safe Sim-To-Real Transfer [18.50206483493784]
本稿では,既存の準最適解を活用可能なモデルフリー強化学習手法を提案する。
訓練中は, ゲート融合法により, 先行者が探査の初期段階を案内できる。
本稿では,ロボットナビゲーションにおけるマルチプリケーティブ・コントローラ・フュージョン・アプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-03-11T05:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。