論文の概要: Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies
- arxiv url: http://arxiv.org/abs/2205.07562v1
- Date: Mon, 16 May 2022 10:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 20:43:08.515363
- Title: Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies
- Title(参考訳): 非定常相互依存型タスクの自律的オープンディビジョン学習
- Authors: Alejandro Romero, Gianluca Baldassarre, Richard J. Duro, Vieri
Giuliano Santucci
- Abstract要約: 固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
- 参考スコア(独自算出の注目度): 64.0476282000118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous open-ended learning is a relevant approach in machine learning and
robotics, allowing the design of artificial agents able to acquire goals and
motor skills without the necessity of user assigned tasks. A crucial issue for
this approach is to develop strategies to ensure that agents can maximise their
competence on as many tasks as possible in the shortest possible time.
Intrinsic motivations have proven to generate a task-agnostic signal to
properly allocate the training time amongst goals. While the majority of works
in the field of intrinsically motivated open-ended learning focus on scenarios
where goals are independent from each other, only few of them studied the
autonomous acquisition of interdependent tasks, and even fewer tackled
scenarios where goals involve non-stationary interdependencies. Building on
previous works, we tackle these crucial issues at the level of decision making
(i.e., building strategies to properly select between goals), and we propose a
hierarchical architecture that treating sub-tasks selection as a Markov
Decision Process is able to properly learn interdependent skills on the basis
of intrinsically generated motivations. In particular, we first deepen the
analysis of a previous system, showing the importance of incorporating
information about the relationships between tasks at a higher level of the
architecture (that of goal selection). Then we introduce H-GRAIL, a new system
that extends the previous one by adding a new learning layer to store the
autonomously acquired sequences of tasks to be able to modify them in case the
interdependencies are non-stationary. All systems are tested in a real robotic
scenario, with a Baxter robot performing multiple interdependent reaching
tasks.
- Abstract(参考訳): 自律的なオープンエンド学習は、機械学習とロボット工学において重要なアプローチであり、ユーザーが割り当てられたタスクを必要とせずに、目標と運動スキルを獲得できる人工知能の設計を可能にする。
このアプローチの重要な課題は、エージェントが可能な限り短時間で可能な限り多くのタスクで能力を発揮するための戦略を開発することである。
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的な動機づけのあるオープンディビジョン学習の分野の著作の大部分は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存的なタスクの自律的獲得を研究した事例はごくわずかであり、目標が非定常的な相互依存を伴うような対処シナリオも少ない。
過去の研究に基づいて、意思決定のレベルでこれらの重要な問題に取り組む(すなわち、目標を適切に選択するための戦略を構築する)とともに、マルコフ決定プロセスとしてサブタスクの選択を扱い、本質的に生成されたモチベーションに基づいて相互依存のスキルを適切に学習できる階層的アーキテクチャを提案する。
特に、まず、アーキテクチャ(ゴール選択)のより高いレベルにおいて、タスク間の関係に関する情報を取り入れることの重要性を示す前のシステムの解析を深く掘り下げた。
次に,H-GRAILを導入する。H-GRAILは,自律的に獲得したタスクのシーケンスを格納する新たな学習層を追加し,相互依存が定常的でない場合に修正できるシステムである。
すべてのシステムは実際のロボットシナリオでテストされ、Baxterロボットは複数の相互依存的なタスクを実行する。
関連論文リスト
- Practice Makes Perfect: Planning to Learn Skill Parameter Policies [34.51008914846429]
本研究では,将来的なタスクの成功を最大化するために,どのスキルを実践するかという,アクティブな学習問題に焦点をあてる。
本稿では,ロボットが各スキルの能力を推定し,能力の外挿を行い,能力認識計画を通じてタスク分布のスキルを定めておくことを提案する。
このアプローチは、ロボットが環境をリセットせずに繰り返し計画し、実践し、学習する完全に自律的なシステム内で実装される。
論文 参考訳(メタデータ) (2024-02-22T23:58:26Z) - Continual Robot Learning using Self-Supervised Task Inference [19.635428830237842]
新しいタスクを継続的に学習するための自己教師型タスク推論手法を提案する。
我々は、行動マッチング型自己教師型学習目標を用いて、新しいタスク推論ネットワーク(TINet)を訓練する。
マルチタスクポリシはTINet上に構築され、タスクよりもパフォーマンスを最適化するために強化学習でトレーニングされている。
論文 参考訳(メタデータ) (2023-09-10T09:32:35Z) - Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z) - Behavior Self-Organization Supports Task Inference for Continual Robot
Learning [18.071689266826212]
本稿では,ロボット制御タスクの連続学習に対する新しいアプローチを提案する。
本手法は, 漸進的に自己組織化された行動によって, 行動埋め込みの教師なし学習を行う。
従来の手法とは異なり,本手法ではタスク分布の仮定は行わず,タスクを推論するタスク探索も必要としない。
論文 参考訳(メタデータ) (2021-07-09T16:37:27Z) - Autonomous learning of multiple, context-dependent tasks [1.1470070927586016]
複雑な環境では、同じタスクには解決すべきさまざまなスキルセットが必要になるかもしれません。
本稿では,2つの課題を統合的に解決するオープンエンド学習ロボットアーキテクチャC-GRAILを提案する。
アーキテクチャは、自律的に関連する対象物に到達することを学習するロボットを含むシミュレーションされたロボット環境でテストされる。
論文 参考訳(メタデータ) (2020-11-27T17:25:36Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。