論文の概要: Learning of Long-Horizon Sparse-Reward Robotic Manipulator Tasks with
Base Controllers
- arxiv url: http://arxiv.org/abs/2011.12105v3
- Date: Sat, 4 Dec 2021 05:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 14:04:11.944178
- Title: Learning of Long-Horizon Sparse-Reward Robotic Manipulator Tasks with
Base Controllers
- Title(参考訳): ベースコントローラを用いた長軸スパース逆ロボットマニピュレータタスクの学習
- Authors: Guangming Wang, Minjian Xin, Wenhua Wu, Zhe Liu, Hesheng Wang
- Abstract要約: 本稿では,1つ以上の従来型ベースコントローラを用いた長軸スパース・リワードタスクの学習手法を提案する。
提案アルゴリズムは,既存のベースコントローラを探索,価値学習,ポリシー更新の段階に組み込む。
我々の方法は、既存の産業用ロボット操作システムを利用して、より柔軟でインテリジェントなコントローラを構築する可能性を秘めている。
- 参考スコア(独自算出の注目度): 26.807673929816026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) enables robots to perform some intelligent
tasks end-to-end. However, there are still many challenges for long-horizon
sparse-reward robotic manipulator tasks. On the one hand, a sparse-reward
setting causes exploration inefficient. On the other hand, exploration using
physical robots is of high cost and unsafe. In this paper, we propose a method
of learning long-horizon sparse-reward tasks utilizing one or more existing
traditional controllers named base controllers in this paper. Built upon Deep
Deterministic Policy Gradients (DDPG), our algorithm incorporates the existing
base controllers into stages of exploration, value learning, and policy update.
Furthermore, we present a straightforward way of synthesizing different base
controllers to integrate their strengths. Through experiments ranging from
stacking blocks to cups, it is demonstrated that the learned state-based or
image-based policies steadily outperform base controllers. Compared to previous
works of learning from demonstrations, our method improves sample efficiency by
orders of magnitude and improves the performance. Overall, our method bears the
potential of leveraging existing industrial robot manipulation systems to build
more flexible and intelligent controllers.
- Abstract(参考訳): Deep Reinforcement Learning (DRL)は、ロボットがいくつかのインテリジェントなタスクをエンドツーエンドで実行できるようにする。
しかし, 長距離スパースリワードロボットマニピュレータの作業には, まだまだ多くの課題がある。
一方、スパース・リワード設定は探索を非効率にする。
一方、物理的なロボットによる探索はコストが高く、安全ではない。
本稿では,1つ以上の従来型コントローラをベースコントローラとして用いた長軸スパース逆タスクの学習手法を提案する。
我々のアルゴリズムは、Deep Deterministic Policy Gradients (DDPG)に基づいており、既存のベースコントローラを探索、価値学習、ポリシー更新の段階に組み込む。
さらに,異なるベースコントローラを合成して,それらの強みを統合する方法を提案する。
積み重ねブロックからカップまでの実験を通して、学習された状態ベースまたは画像ベースのポリシーがベースコントローラよりも着実に優れていることを示す。
実演から学習する従来の作業と比較して,本手法はサンプルの効率を桁違いに向上させ,性能を向上させる。
提案手法は,既存の産業用ロボット操作システムを利用して,より柔軟でインテリジェントなコントローラを構築する可能性を秘めている。
関連論文リスト
- Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Contact Energy Based Hindsight Experience Prioritization [19.42106651692228]
強化学習(RL)アルゴリズムでは,報酬の少ないマルチゴールロボット操作作業が困難である。
Hindsight Experience Replay (HER)のような最近のアルゴリズムは、失敗軌跡を生かして学習を高速化している。
本稿では,コンタクトによるリッチな情報に基づいて,リプレイバッファからサンプルを選択するための,CEBP(Contact Energy Based Prioritization)を提案する。
論文 参考訳(メタデータ) (2023-12-05T11:32:25Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - DexPBT: Scaling up Dexterous Manipulation for Hand-Arm Systems with
Population Based Training [10.808149303943948]
マルチフィンガーハンドエンドエフェクタを備えた模擬片腕または2腕ロボットを用いて,デキスタスな物体操作を学習する。
我々は、深層強化学習の探索能力を大幅に増幅できる分散型人口ベーストレーニング(PBT)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-05-20T07:25:27Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - SQUIRL: Robust and Efficient Learning from Video Demonstration of
Long-Horizon Robotic Manipulation Tasks [8.756012472587601]
深層強化学習(RL)は複雑な操作タスクを学習するために用いられる。
RLは、ロボットが大量の現実世界の経験を収集する必要がある。
SQUIRLは、単一のビデオデモしか持たない、新しいが関連するロングホライゾンタスクを実行する。
論文 参考訳(メタデータ) (2020-03-10T20:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。