論文の概要: Skill-based Multi-objective Reinforcement Learning of Industrial Robot
Tasks with Planning and Knowledge Integration
- arxiv url: http://arxiv.org/abs/2203.10033v1
- Date: Fri, 18 Mar 2022 16:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 16:33:31.626741
- Title: Skill-based Multi-objective Reinforcement Learning of Industrial Robot
Tasks with Planning and Knowledge Integration
- Title(参考訳): 計画と知識統合による産業用ロボットタスクのスキルベース多目的強化学習
- Authors: Matthias Mayr, Faseeh Ahmad, Konstantinos Chatzilygeroudis, Luigi
Nardi, Volker Krueger
- Abstract要約: 本稿では,タスクレベルの計画と,スキルベースシステムにおけるシナリオ固有のパラメータの学習を併用する手法を提案する。
2つの異なる接触豊富なタスクのスキルパラメータを学習することで、アプローチの有効性と汎用性を実証する。
- 参考スコア(独自算出の注目度): 0.4949816699298335
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In modern industrial settings with small batch sizes it should be easy to set
up a robot system for a new task. Strategies exist, e.g. the use of skills, but
when it comes to handling forces and torques, these systems often fall short.
We introduce an approach that provides a combination of task-level planning
with targeted learning of scenario-specific parameters for skill-based systems.
We propose the following pipeline: (1) the user provides a task goal in the
planning language PDDL, (2) a plan (i.e., a sequence of skills) is generated
and the learnable parameters of the skills are automatically identified. An
operator then chooses (3) reward functions and hyperparameters for the learning
process. Two aspects of our methodology are critical: (a) learning is tightly
integrated with a knowledge framework to support symbolic planning and to
provide priors for learning, (b) using multi-objective optimization. This can
help to balance key performance indicators (KPIs) such as safety and task
performance since they can often affect each other. We adopt a multi-objective
Bayesian optimization approach and learn entirely in simulation. We demonstrate
the efficacy and versatility of our approach by learning skill parameters for
two different contact-rich tasks. We show their successful execution on a real
7-DOF KUKA-iiwa manipulator and outperform the manual parameterization by human
robot operators.
- Abstract(参考訳): バッチサイズが小さい現代的な産業環境では、新しいタスクのためにロボットシステムをセットアップするのは簡単である。
スキルの使用のような戦略は存在するが、力やトルクを扱う場合、これらのシステムはしばしば不足する。
本稿では,タスクレベルの計画とシナリオ固有のパラメータの学習を組み合わせたスキルベースシステムを提案する。
1) 利用者は計画言語PDDLでタスクゴールを提供し、(2) 計画(つまり、一連のスキル)が生成され、そのスキルの学習可能なパラメータが自動的に識別される。
オペレータは学習プロセスに対して(3)報酬関数とハイパーパラメータを選択する。
方法論の2つの側面が重要です
(a)学習は、シンボリックプランニングをサポートし、学習の事前を提供するための知識フレームワークと密に統合される。
(b)多目的最適化を用いた。
これは安全性やタスクパフォーマンスといった重要なパフォーマンス指標(kpi)のバランスを取るのに役立つ。
我々は多目的ベイズ最適化アプローチを採用し、シミュレーションで完全に学習する。
2つの異なる接触豊富なタスクのスキルパラメータを学習することで、アプローチの有効性と汎用性を実証する。
実際の7自由度kuka-iiwaマニピュレータ上での実行を成功させ,人間のロボット操作者による手動パラメータ化を上回った。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - Practice Makes Perfect: Planning to Learn Skill Parameter Policies [34.51008914846429]
本研究では,将来的なタスクの成功を最大化するために,どのスキルを実践するかという,アクティブな学習問題に焦点をあてる。
本稿では,ロボットが各スキルの能力を推定し,能力の外挿を行い,能力認識計画を通じてタスク分布のスキルを定めておくことを提案する。
このアプローチは、ロボットが環境をリセットせずに繰り返し計画し、実践し、学習する完全に自律的なシステム内で実装される。
論文 参考訳(メタデータ) (2024-02-22T23:58:26Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Active Task Randomization: Learning Robust Skills via Unsupervised
Generation of Diverse and Feasible Tasks [37.73239471412444]
我々は、教師なしのトレーニングタスクの生成を通じて、堅牢なスキルを学ぶアプローチであるActive Task Randomization (ATR)を導入する。
ATRは、タスクの多様性と実現可能性のバランスをとることで、堅牢なスキルを学ぶために、初期環境状態と操作目標からなる適切なタスクを選択する。
本研究では,視覚的入力に基づく逐次操作問題の解決のために,タスクプランナが学習スキルを構成することを実証する。
論文 参考訳(メタデータ) (2022-11-11T11:24:55Z) - Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。
タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。
我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文 参考訳(メタデータ) (2022-06-21T19:01:19Z) - Meta-Learning Parameterized Skills [12.845774297648738]
本稿では,伝達可能なパラメータ化スキルを学習し,それらを新しいアクション空間に合成することを目的とした,新しいスキル学習アルゴリズムを提案する。
本研究では,提案アルゴリズムによってエージェントが難易度の高い長期作業(障害物コースとロボット操作)を解くことができることを実証的に実証する。
論文 参考訳(メタデータ) (2022-06-07T21:30:58Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。