論文の概要: Robotic Arm Control and Task Training through Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2005.02632v1
- Date: Wed, 6 May 2020 07:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 05:58:49.309888
- Title: Robotic Arm Control and Task Training through Deep Reinforcement
Learning
- Title(参考訳): 深部強化学習によるロボットアーム制御とタスクトレーニング
- Authors: Andrea Franceschetti, Elisa Tosello, Nicola Castaman and Stefano
Ghidoni
- Abstract要約: 我々は,信頼地域政策最適化と正規化アドバンテージ関数を用いたディープQ-ネットワークが,Deep Deterministic Policy GradientやVanilla Policy Gradientよりも優れていることを示す。
実際の実験では、我々の警察がシミュレーションで正しく訓練されたとしても、ほとんど変化なしに実際の環境に移動して実行できることが示されます。
- 参考スコア(独自算出の注目度): 6.249276977046449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a detailed and extensive comparison of the Trust Region
Policy Optimization and DeepQ-Network with Normalized Advantage Functions with
respect to other state of the art algorithms, namely Deep Deterministic Policy
Gradient and Vanilla Policy Gradient. Comparisons demonstrate that the former
have better performances then the latter when asking robotic arms to accomplish
manipulation tasks such as reaching a random target pose and pick &placing an
object. Both simulated and real-world experiments are provided. Simulation lets
us show the procedures that we adopted to precisely estimate the algorithms
hyper-parameters and to correctly design good policies. Real-world experiments
let show that our polices, if correctly trained on simulation, can be
transferred and executed in a real environment with almost no changes.
- Abstract(参考訳): 本稿では,信頼領域の政策最適化と,正規化アドバンテージ関数を用いたディープqネットワークと,他のアルゴリズム,すなわち深い決定論的政策勾配とバニラ政策勾配との詳細な比較を行った。
比較では、ロボットアームにランダムなターゲットのポーズに到達したり、オブジェクトをピック&プレイするといった操作タスクをこなす場合、後者の方がパフォーマンスが良いことが示される。
シミュレーションと実世界の両方の実験が提供されている。
シミュレーションにより、アルゴリズムのハイパーパラメータを正確に推定し、適切なポリシーを正しく設計するために採用した手順を示す。
実世界の実験では、シミュレーションを正しく訓練すれば、ほとんど変化なしに実際の環境で警察が移動し、実行できることを示せます。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Robotic Lever Manipulation using Hindsight Experience Replay and Shapley
Additive Explanations [0.0]
本稿では,説明可能なDeep Reinforcement Learningを用いたロボットレバー制御について述べる。
まず、Deep Deterministic Policy GradientアルゴリズムとHindsight Experience Replay技術を用いてポリシーを訓練する。
そして、実際の環境にポリシーを移し、ほとんどのエピソードでシミュレーションされた環境と同等のパフォーマンスを達成する。
政策の決定を説明するために,実環境におけるエピソードに基づいた説明モデルを作成するため,SHAP法を用いる。
論文 参考訳(メタデータ) (2021-10-07T09:24:34Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。