論文の概要: Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks
- arxiv url: http://arxiv.org/abs/2109.10312v1
- Date: Tue, 21 Sep 2021 16:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:31:01.309736
- Title: Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks
- Title(参考訳): 長軸ビズモータタスクの解法のための例駆動型モデルベース強化学習
- Authors: Bohan Wu, Suraj Nair, Li Fei-Fei, Chelsea Finn
- Abstract要約: 長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
- 参考スコア(独自算出の注目度): 85.56153200251713
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we study the problem of learning a repertoire of low-level
skills from raw images that can be sequenced to complete long-horizon
visuomotor tasks. Reinforcement learning (RL) is a promising approach for
acquiring short-horizon skills autonomously. However, the focus of RL
algorithms has largely been on the success of those individual skills, more so
than learning and grounding a large repertoire of skills that can be sequenced
to complete extended multi-stage tasks. The latter demands robustness and
persistence, as errors in skills can compound over time, and may require the
robot to have a number of primitive skills in its repertoire, rather than just
one. To this end, we introduce EMBR, a model-based RL method for learning
primitive skills that are suitable for completing long-horizon visuomotor
tasks. EMBR learns and plans using a learned model, critic, and success
classifier, where the success classifier serves both as a reward function for
RL and as a grounding mechanism to continuously detect if the robot should
retry a skill when unsuccessful or under perturbations. Further, the learned
model is task-agnostic and trained using data from all skills, enabling the
robot to efficiently learn a number of distinct primitives. These visuomotor
primitive skills and their associated pre- and post-conditions can then be
directly combined with off-the-shelf symbolic planners to complete long-horizon
tasks. On a Franka Emika robot arm, we find that EMBR enables the robot to
complete three long-horizon visuomotor tasks at 85% success rate, such as
organizing an office desk, a file cabinet, and drawers, which require
sequencing up to 12 skills, involve 14 unique learned primitives, and demand
generalization to novel objects.
- Abstract(参考訳): そこで,本稿では,長期的ビズモータタスクを完了させるために,原画像から低レベルスキルのレパートリーを学習する問題について検討する。
強化学習(rl)は、短期ホリゾンスキルを自律的に獲得するための有望なアプローチである。
しかし、RLアルゴリズムの焦点は、多段階のタスクを完遂するためにシーケンスできる大きなスキルのレパートリーを学ぶことよりも、これらの個々のスキルの成功に焦点を当てている。
後者は、スキルのエラーが時間とともに複雑になるため、頑丈さと永続性を必要としており、ロボットは1つだけではなく、多くの原始的なスキルをレパートリーに持たなければならない。
そこで本研究では,長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
EMBRは、学習モデル、批評家、成功分類器を用いて学習と計画を行い、成功分類器はRLの報酬関数と、ロボットが失敗または摂動下でスキルを再試行すべきかどうかを継続的に検出する基盤機構の両方として機能する。
さらに、学習モデルはタスク非依存であり、すべてのスキルからのデータを用いて訓練され、ロボットは複数の異なるプリミティブを効率的に学習することができる。
これらのビズモータ原始的スキルとその関連する事前条件と後条件は、オフザシェルフのシンボルプランナーと直接結合して、ロングホライゾンタスクを完了させることができる。
フランカ・エミカのロボットアームでは,オフィスデスク,ファイルキャビネット,引き出しなど,14の独特な学習的プリミティブを伴い,新しいオブジェクトへの一般化を要求されるような,3つの長期的ビズモータタスクを85%の成功率で完了させることができる。
関連論文リスト
- Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、大規模言語モデルの高レベル推論を低レベルロボット制御に適用することが可能となる。
残る課題は、さまざまな基本的なスキルを取得することです。
既存のアプローチでは、複雑なタスクをトップダウン方式でアトミックなロボットアクションに手動で分解するか、ボトムアップ方式で可能な限り多くの組み合わせをブートストラップすることで、幅広いタスクの可能性をカバーする。
ゼロスキルから始めて、ASDスキルライブラリが出現し、より有意義で信頼性の高いスキルに拡張されることを示す。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - LEAGUE: Guided Skill Learning and Abstraction for Long-Horizon
Manipulation [16.05029027561921]
タスク・アンド・モーション・プランニングのアプローチは、長期にわたるタスクの解決と一般化に長けている。
彼らは事前に定義されたスキルセットを仮定し、現実世界のアプリケーションを制限する。
本稿ではLEAGUEというタスク計画とスキル学習フレームワークを提案する。
学習スキルは、新しいタスク領域での学習を加速し、物理的なロボットプラットフォームに移行するために再利用できることを示す。
論文 参考訳(メタデータ) (2022-10-23T06:57:05Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - SKID RAW: Skill Discovery from Raw Trajectories [23.871402375721285]
すべてのスキルではなく、完全なタスクの実行を示すことが望ましい。
軌跡を反復パターンに分割することを同時に学習する新しい手法を提案する。
このアプローチは、スキルのシーケンスを理解するのに使用できるスキルコンディショニングを学習する。
論文 参考訳(メタデータ) (2021-03-26T17:27:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。