論文の概要: Practice Makes Perfect: Planning to Learn Skill Parameter Policies
- arxiv url: http://arxiv.org/abs/2402.15025v1
- Date: Thu, 22 Feb 2024 23:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:57:46.628175
- Title: Practice Makes Perfect: Planning to Learn Skill Parameter Policies
- Title(参考訳): 実践が完璧になる - スキルパラメータポリシーを学ぶ計画
- Authors: Nishanth Kumar, Tom Silver, Willie McClinton, Linfeng Zhao, Stephen
Proulx, Tom\'as Lozano-P\'erez, Leslie Pack Kaelbling, Jennifer Barry
- Abstract要約: 複雑で長期的タスクにおける効果的なロボット意思決定への1つの有望なアプローチは、パラメータ化されたスキルをまとめることである。
本稿では,ロボットが各スキルの能力を推定し,能力の外挿を行い,能力認識計画を通じてタスク分布のスキルを定めておくことを提案する。
このアプローチは、ロボットが環境をリセットせずに繰り返し計画し、実践し、学習する完全に自律的なシステム内で実装される。
- 参考スコア(独自算出の注目度): 25.32054291288877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One promising approach towards effective robot decision making in complex,
long-horizon tasks is to sequence together parameterized skills. We consider a
setting where a robot is initially equipped with (1) a library of parameterized
skills, (2) an AI planner for sequencing together the skills given a goal, and
(3) a very general prior distribution for selecting skill parameters. Once
deployed, the robot should rapidly and autonomously learn to improve its
performance by specializing its skill parameter selection policy to the
particular objects, goals, and constraints in its environment. In this work, we
focus on the active learning problem of choosing which skills to practice to
maximize expected future task success. We propose that the robot should
estimate the competence of each skill, extrapolate the competence (asking: "how
much would the competence improve through practice?"), and situate the skill in
the task distribution through competence-aware planning. This approach is
implemented within a fully autonomous system where the robot repeatedly plans,
practices, and learns without any environment resets. Through experiments in
simulation, we find that our approach learns effective parameter policies more
sample-efficiently than several baselines. Experiments in the real-world
demonstrate our approach's ability to handle noise from perception and control
and improve the robot's ability to solve two long-horizon mobile-manipulation
tasks after a few hours of autonomous practice.
- Abstract(参考訳): 複雑な長期タスクにおける効果的なロボット意思決定への有望なアプローチは、パラメータ化されたスキルをまとめることである。
ロボットがまず(1)パラメータ化されたスキルのライブラリ、(2)目標に与えられたスキルをシークエンシングするためのaiプランナー、(3)スキルパラメータを選択するための非常に一般的な事前分布を備えた設定を考える。
一度デプロイされたロボットは、スキルパラメータの選択ポリシーを特定のオブジェクト、目標、環境の制約に特化することで、迅速かつ自律的にパフォーマンスを改善することを学ぶべきである。
本研究は,今後の課題成功を最大化するために,実践すべきスキルを選択することによる,アクティブラーニングの問題に焦点をあてる。
ロボットは,各スキルの能力を推定し,能力を外挿し(「実践を通じて能力はどの程度向上するか?」)し,能力認識計画を通じてタスク分布のスキルを配置することを提案する。
このアプローチは、ロボットが環境をリセットせずに繰り返し計画し、実践し、学習する完全に自律的なシステム内で実装される。
シミュレーション実験により,提案手法は複数のベースラインよりも効果的なパラメータポリシーをサンプル効率良く学習できることを見出した。
実世界の実験では、ロボットが知覚と制御からノイズを処理し、ロボットが2つの長いホリゾンの移動操作タスクを数時間の自律練習で解決する能力を向上させる能力が実証されている。
関連論文リスト
- RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Discovering Unsupervised Behaviours from Full-State Trajectories [1.827510863075184]
本稿では,自律的に行動特性を見出す品質多様性アルゴリズムとして,自律型ロボットの能力を実現する手法を提案する。
本手法は,ロボットが実状態の軌道から自律的にその能力を見いださなければならないシミュレーションロボット環境において評価する。
より具体的には、分析されたアプローチは、ロボットを多様な位置に移動させるポリシーを自律的に見つけるだけでなく、脚を多様な方法で活用し、ハーフロールも行う。
論文 参考訳(メタデータ) (2022-11-22T16:57:52Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Skill-based Multi-objective Reinforcement Learning of Industrial Robot
Tasks with Planning and Knowledge Integration [0.4949816699298335]
本稿では,タスクレベルの計画と,スキルベースシステムにおけるシナリオ固有のパラメータの学習を併用する手法を提案する。
2つの異なる接触豊富なタスクのスキルパラメータを学習することで、アプローチの有効性と汎用性を実証する。
論文 参考訳(メタデータ) (2022-03-18T16:03:27Z) - Robot Skill Adaptation via Soft Actor-Critic Gaussian Mixture Models [29.34375999491465]
現実の世界で行動する自律的エージェントにとっての中核的な課題は、その騒々しい知覚とダイナミクスに対処するために、そのスキルのレパートリーを適応させることである。
ロングホライズンタスクにスキルの学習を拡大するためには、ロボットは学習し、その後、構造化された方法でスキルを洗練する必要がある。
SAC-GMMは,動的システムを通じてロボットのスキルを学習し,学習したスキルを自身の軌道分布空間に適応させる,新しいハイブリッドアプローチである。
論文 参考訳(メタデータ) (2021-11-25T15:36:11Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。