論文の概要: Practice Makes Perfect: Planning to Learn Skill Parameter Policies
- arxiv url: http://arxiv.org/abs/2402.15025v2
- Date: Sat, 18 May 2024 15:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 23:10:31.951870
- Title: Practice Makes Perfect: Planning to Learn Skill Parameter Policies
- Title(参考訳): 実践が完璧になる - スキルパラメータポリシーを学ぶ計画
- Authors: Nishanth Kumar, Tom Silver, Willie McClinton, Linfeng Zhao, Stephen Proulx, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Jennifer Barry,
- Abstract要約: 本研究では,将来的なタスクの成功を最大化するために,どのスキルを実践するかという,アクティブな学習問題に焦点をあてる。
本稿では,ロボットが各スキルの能力を推定し,能力の外挿を行い,能力認識計画を通じてタスク分布のスキルを定めておくことを提案する。
このアプローチは、ロボットが環境をリセットせずに繰り返し計画し、実践し、学習する完全に自律的なシステム内で実装される。
- 参考スコア(独自算出の注目度): 34.51008914846429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One promising approach towards effective robot decision making in complex, long-horizon tasks is to sequence together parameterized skills. We consider a setting where a robot is initially equipped with (1) a library of parameterized skills, (2) an AI planner for sequencing together the skills given a goal, and (3) a very general prior distribution for selecting skill parameters. Once deployed, the robot should rapidly and autonomously learn to improve its performance by specializing its skill parameter selection policy to the particular objects, goals, and constraints in its environment. In this work, we focus on the active learning problem of choosing which skills to practice to maximize expected future task success. We propose that the robot should estimate the competence of each skill, extrapolate the competence (asking: "how much would the competence improve through practice?"), and situate the skill in the task distribution through competence-aware planning. This approach is implemented within a fully autonomous system where the robot repeatedly plans, practices, and learns without any environment resets. Through experiments in simulation, we find that our approach learns effective parameter policies more sample-efficiently than several baselines. Experiments in the real-world demonstrate our approach's ability to handle noise from perception and control and improve the robot's ability to solve two long-horizon mobile-manipulation tasks after a few hours of autonomous practice. Project website: http://ees.csail.mit.edu
- Abstract(参考訳): 複雑な長期タスクにおける効果的なロボット意思決定への有望なアプローチの1つは、パラメータ化されたスキルをまとめることである。
本稿では,(1)パラメータ化されたスキルのライブラリ,(2)目標とするスキルをまとめてシーケンスするAIプランナ,(3)スキルパラメータを選択するための非常に一般的な事前分布について考察する。
ロボットは、一度配備されると、特定の対象、目標、制約にスキルパラメータ選択ポリシーを特化することにより、その性能向上を迅速かつ自律的に学ばなければならない。
本研究では,将来的なタスクの成功を最大化するために,どのスキルを実践するかという,アクティブな学習問題に焦点をあてる。
そこで本研究では,ロボットが各スキルの能力を推定し,能力の外挿を行い(「実践によって能力はどの程度改善されるのか?」と問う),能力認識計画を通じてタスク分布のスキルを定めておくことを提案する。
このアプローチは、ロボットが環境をリセットせずに繰り返し計画し、実践し、学習する完全に自律的なシステム内で実装される。
シミュレーション実験により,本手法は複数のベースラインよりも効率的なパラメータポリシーをより効率的に学習できることが判明した。
実世界の実験では、知覚と制御からノイズを処理し、数時間の自律的な練習の後、ロボットが2つの長い水平移動操作タスクを解く能力を向上させる方法が実証された。
プロジェクトウェブサイト: http://ees.csail.mit.edu
関連論文リスト
- RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Discovering Unsupervised Behaviours from Full-State Trajectories [1.827510863075184]
本稿では,自律的に行動特性を見出す品質多様性アルゴリズムとして,自律型ロボットの能力を実現する手法を提案する。
本手法は,ロボットが実状態の軌道から自律的にその能力を見いださなければならないシミュレーションロボット環境において評価する。
より具体的には、分析されたアプローチは、ロボットを多様な位置に移動させるポリシーを自律的に見つけるだけでなく、脚を多様な方法で活用し、ハーフロールも行う。
論文 参考訳(メタデータ) (2022-11-22T16:57:52Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Skill-based Multi-objective Reinforcement Learning of Industrial Robot
Tasks with Planning and Knowledge Integration [0.4949816699298335]
本稿では,タスクレベルの計画と,スキルベースシステムにおけるシナリオ固有のパラメータの学習を併用する手法を提案する。
2つの異なる接触豊富なタスクのスキルパラメータを学習することで、アプローチの有効性と汎用性を実証する。
論文 参考訳(メタデータ) (2022-03-18T16:03:27Z) - Robot Skill Adaptation via Soft Actor-Critic Gaussian Mixture Models [29.34375999491465]
現実の世界で行動する自律的エージェントにとっての中核的な課題は、その騒々しい知覚とダイナミクスに対処するために、そのスキルのレパートリーを適応させることである。
ロングホライズンタスクにスキルの学習を拡大するためには、ロボットは学習し、その後、構造化された方法でスキルを洗練する必要がある。
SAC-GMMは,動的システムを通じてロボットのスキルを学習し,学習したスキルを自身の軌道分布空間に適応させる,新しいハイブリッドアプローチである。
論文 参考訳(メタデータ) (2021-11-25T15:36:11Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。