論文の概要: Robotic Lever Manipulation using Hindsight Experience Replay and Shapley
Additive Explanations
- arxiv url: http://arxiv.org/abs/2110.03292v1
- Date: Thu, 7 Oct 2021 09:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:26:15.609771
- Title: Robotic Lever Manipulation using Hindsight Experience Replay and Shapley
Additive Explanations
- Title(参考訳): Hindsight Experience ReplayとShapley Additive Explanationsを用いたロボットレバ操作
- Authors: Sindre Benjamin Remman and Anastasios M. Lekkas
- Abstract要約: 本稿では,説明可能なDeep Reinforcement Learningを用いたロボットレバー制御について述べる。
まず、Deep Deterministic Policy GradientアルゴリズムとHindsight Experience Replay技術を用いてポリシーを訓練する。
そして、実際の環境にポリシーを移し、ほとんどのエピソードでシミュレーションされた環境と同等のパフォーマンスを達成する。
政策の決定を説明するために,実環境におけるエピソードに基づいた説明モデルを作成するため,SHAP法を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper deals with robotic lever control using Explainable Deep
Reinforcement Learning. First, we train a policy by using the Deep
Deterministic Policy Gradient algorithm and the Hindsight Experience Replay
technique, where the goal is to control a robotic manipulator to manipulate a
lever. This enables us both to use continuous states and actions and to learn
with sparse rewards. Being able to learn from sparse rewards is especially
desirable for Deep Reinforcement Learning because designing a reward function
for complex tasks such as this is challenging. We first train in the PyBullet
simulator, which accelerates the training procedure, but is not accurate on
this task compared to the real-world environment. After completing the training
in PyBullet, we further train in the Gazebo simulator, which runs more slowly
than PyBullet, but is more accurate on this task. We then transfer the policy
to the real-world environment, where it achieves comparable performance to the
simulated environments for most episodes. To explain the decisions of the
policy we use the SHAP method to create an explanation model based on the
episodes done in the real-world environment. This gives us some results that
agree with intuition, and some that do not. We also question whether the
independence assumption made when approximating the SHAP values influences the
accuracy of these values for a system such as this, where there are some
correlations between the states.
- Abstract(参考訳): 本稿では,説明可能なDeep Reinforcement Learningを用いたロボットレバー制御について述べる。
まず,ロボットマニピュレータを制御してレバーを操作することを目的とした,深い決定論的ポリシ勾配アルゴリズムと後見体験リプレイ手法を用いてポリシを訓練する。
これにより、連続した状態とアクションを使い、スパースな報酬で学ぶことができます。
このような複雑なタスクに対して報酬関数を設計することは難しいため、特に深層強化学習において、スパース報酬から学ぶことが望ましい。
トレーニング手順を高速化するPyBulletシミュレータを最初に訓練するが、実環境に比べて正確ではない。
PyBulletでのトレーニングを終えた後、PyBulletよりも遅いが、このタスクではより正確であるGazeboシミュレーターでさらにトレーニングを行う。
そして、実際の環境にポリシーを移し、ほとんどのエピソードでシミュレーションされた環境と同等のパフォーマンスを達成する。
政策の決定を説明するために,実環境におけるエピソードに基づいた説明モデルを作成するため,SHAP法を用いる。
これは直感に賛成する結果と、そうでない結果を与えてくれます。
また,shap値近似時の独立性仮定が,状態間に相関関係があるようなシステムにおいて,これらの値の精度に影響を与えるかどうかについても疑問視する。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - DexPBT: Scaling up Dexterous Manipulation for Hand-Arm Systems with
Population Based Training [10.808149303943948]
マルチフィンガーハンドエンドエフェクタを備えた模擬片腕または2腕ロボットを用いて,デキスタスな物体操作を学習する。
我々は、深層強化学習の探索能力を大幅に増幅できる分散型人口ベーストレーニング(PBT)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-05-20T07:25:27Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Real-World Dexterous Object Manipulation based Deep Reinforcement
Learning [3.4493195428573613]
ロボットの制御に深層強化学習を用いる方法を示す。
この枠組みは, 深層強化学習の低サンプリング効率の欠点を低減させる。
我々のアルゴリズムはシミュレーションで訓練され、微調整なしで現実に移行した。
論文 参考訳(メタデータ) (2021-11-22T02:48:05Z) - Pre-training of Deep RL Agents for Improved Learning under Domain
Randomization [63.09932240840656]
我々は、すでにランダム化に不変な埋め込み型を提供する知覚エンコーダの事前学習方法を示す。
本研究では、DeepMind制御スイートタスクのランダム化バージョンと、任意の背景上の積み重ね環境において、ゼロショットで物理ロボットに転送する結果を連続的に改善することを示す。
論文 参考訳(メタデータ) (2021-04-29T14:54:11Z) - Learning What To Do by Simulating the Past [76.86449554580291]
学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
論文 参考訳(メタデータ) (2021-04-08T17:43:29Z) - Accelerated Sim-to-Real Deep Reinforcement Learning: Learning Collision
Avoidance from Human Player [5.960346570280513]
本稿では,移動ロボットに使用するセンサレベルマップレス衝突回避アルゴリズムを提案する。
ロボットが人間体験データと自己探索データの両方から学習できるように,効率的な学習戦略を提案する。
ゲームフォーマットシミュレーションフレームワークは、人間のプレイヤーがモバイルロボットを目標まで遠隔操作できるように設計されている。
論文 参考訳(メタデータ) (2021-02-21T23:27:34Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Robotic Arm Control and Task Training through Deep Reinforcement
Learning [6.249276977046449]
我々は,信頼地域政策最適化と正規化アドバンテージ関数を用いたディープQ-ネットワークが,Deep Deterministic Policy GradientやVanilla Policy Gradientよりも優れていることを示す。
実際の実験では、我々の警察がシミュレーションで正しく訓練されたとしても、ほとんど変化なしに実際の環境に移動して実行できることが示されます。
論文 参考訳(メタデータ) (2020-05-06T07:34:28Z) - On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning
and SLAM Based Approach [7.488722678999039]
本研究では,未知環境下を走行する移動ロボットを対象とした,深層強化学習(DRL)に基づくマップレス経路計画アルゴリズムを提案する。
プランナーは、トレーニング環境の地図のオンライン知識に基づいて、報酬関数を用いて訓練される。
シミュレーション環境で訓練されたポリシーを直接、実際のロボットに転送し、成功させることができる。
論文 参考訳(メタデータ) (2020-02-10T22:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。