論文の概要: Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration
- arxiv url: http://arxiv.org/abs/2211.04786v2
- Date: Mon, 17 Apr 2023 09:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 23:25:00.017452
- Title: Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration
- Title(参考訳): 単例による強化学習における逐次学習の活用
- Authors: Alexandre Chenu, Olivier Serris, Olivier Sigaud and Nicolas
Perrin-Gilbert
- Abstract要約: 本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
- 参考スコア(独自算出の注目度): 68.94506047556412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning has been successfully applied to learn robotic
control. However, the corresponding algorithms struggle when applied to
problems where the agent is only rewarded after achieving a complex task. In
this context, using demonstrations can significantly speed up the learning
process, but demonstrations can be costly to acquire. In this paper, we propose
to leverage a sequential bias to learn control policies for complex robotic
tasks using a single demonstration. To do so, our method learns a
goal-conditioned policy to control a system between successive low-dimensional
goals. This sequential goal-reaching approach raises a problem of compatibility
between successive goals: we need to ensure that the state resulting from
reaching a goal is compatible with the achievement of the following goals. To
tackle this problem, we present a new algorithm called DCIL-II. We show that
DCIL-II can solve with unprecedented sample efficiency some challenging
simulated tasks such as humanoid locomotion and stand-up as well as fast
running with a simulated Cassie robot. Our method leveraging sequentiality is a
step towards the resolution of complex robotic tasks under minimal
specification effort, a key feature for the next generation of autonomous
robots.
- Abstract(参考訳): 深層強化学習はロボット制御の学習に成功している。
しかし、エージェントが複雑なタスクを完了した後のみ報酬を受ける問題に適用した場合、対応するアルゴリズムは苦労する。
この文脈では、デモを使用することで学習プロセスが大幅にスピードアップするが、デモの獲得にはコストがかかる。
本稿では,複雑なロボットタスクの制御方針を1つのデモを用いて学習するために,逐次バイアスを活用することを提案する。
そこで本手法では,低次元目標間のシステムを制御するための目標条件ポリシーを学習する。
このシーケンシャルな目標達成アプローチは、連続した目標間の互換性の問題を引き起こします。
そこで本研究では,DCIL-IIと呼ばれる新しいアルゴリズムを提案する。
dcil-iiは前例のないサンプル効率で解決でき、ヒューマノイドのロコモーションやスタンドアップなどのシミュレートされたタスクや、シミュレーションされたキャシーロボットで高速に走ることができる。
本手法は,次世代自律ロボットの重要な特徴である,最小限の仕様の下での複雑なロボットタスクの解決に向けたステップである。
関連論文リスト
- Single-Reset Divide & Conquer Imitation Learning [49.87201678501027]
デモはDeep Reinforcement Learningアルゴリズムの学習プロセスを高速化するために一般的に使用される。
いくつかのアルゴリズムは1つのデモンストレーションから学習するために開発されている。
論文 参考訳(メタデータ) (2024-02-14T17:59:47Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - CRISP: Curriculum inducing Primitive Informed Subgoal Prediction [30.533883667629887]
低レベルのプリミティブを進化させるために,達成可能なサブゴールのカリキュラムを生成するための新しい階層型アルゴリズムCRISPを提案する。
私たちのアプローチでは、いくつかの専門家によるデモンストレーションが使用されているので、ほとんどのロボット制御タスクに適しています。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Bi-Manual Manipulation and Attachment via Sim-to-Real Reinforcement
Learning [23.164743388342803]
シミュレーションで訓練された強化学習を用いて,両手作業の解法について検討する。
また、RLポリシーの効果的なトレーニングにつながるシミュレーション環境の変更についても検討する。
本研究では,2つのロボットアームが磁気的接続点を持つ2つのブロックを拾い上げるための接続タスクを設計する。
論文 参考訳(メタデータ) (2022-03-15T21:49:20Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - SQUIRL: Robust and Efficient Learning from Video Demonstration of
Long-Horizon Robotic Manipulation Tasks [8.756012472587601]
深層強化学習(RL)は複雑な操作タスクを学習するために用いられる。
RLは、ロボットが大量の現実世界の経験を収集する必要がある。
SQUIRLは、単一のビデオデモしか持たない、新しいが関連するロングホライゾンタスクを実行する。
論文 参考訳(メタデータ) (2020-03-10T20:26:26Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。