論文の概要: Autonomous learning of multiple, context-dependent tasks
- arxiv url: http://arxiv.org/abs/2011.13847v1
- Date: Fri, 27 Nov 2020 17:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:57:09.686870
- Title: Autonomous learning of multiple, context-dependent tasks
- Title(参考訳): 複数の文脈依存タスクの自律学習
- Authors: Vieri Giuliano Santucci and Davide Montella and Bruno Castro da Silva
and Gianluca Baldassarre
- Abstract要約: 複雑な環境では、同じタスクには解決すべきさまざまなスキルセットが必要になるかもしれません。
本稿では,2つの課題を統合的に解決するオープンエンド学習ロボットアーキテクチャC-GRAILを提案する。
アーキテクチャは、自律的に関連する対象物に到達することを学習するロボットを含むシミュレーションされたロボット環境でテストされる。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When facing the problem of autonomously learning multiple tasks with
reinforcement learning systems, researchers typically focus on solutions where
just one parametrised policy per task is sufficient to solve them. However, in
complex environments presenting different contexts, the same task might need a
set of different skills to be solved. These situations pose two challenges: (a)
to recognise the different contexts that need different policies; (b) quickly
learn the policies to accomplish the same tasks in the new discovered contexts.
These two challenges are even harder if faced within an open-ended learning
framework where an agent has to autonomously discover the goals that it might
accomplish in a given environment, and also to learn the motor skills to
accomplish them. We propose a novel open-ended learning robot architecture,
C-GRAIL, that solves the two challenges in an integrated fashion. In
particular, the architecture is able to detect new relevant contests, and
ignore irrelevant ones, on the basis of the decrease of the expected
performance for a given goal. Moreover, the architecture can quickly learn the
policies for the new contexts by exploiting transfer learning importing
knowledge from already acquired policies. The architecture is tested in a
simulated robotic environment involving a robot that autonomously learns to
reach relevant target objects in the presence of multiple obstacles generating
several different obstacles. The proposed architecture outperforms other models
not using the proposed autonomous context-discovery and transfer-learning
mechanisms.
- Abstract(参考訳): 強化学習システムで複数のタスクを自律的に学習する問題に直面している場合、研究者は通常、タスクごとにひとつのパラメトリドポリシーだけで解決できるソリューションに焦点を当てる。
しかし、異なるコンテキストを示す複雑な環境では、同じタスクは解決すべき異なるスキルセットを必要とするかもしれない。
これらの状況は2つの課題をもたらします
(a)異なる方針を必要とする異なる文脈を認識すること
b) 新しい発見されたコンテキストにおいて、同じタスクを達成するためのポリシーをすばやく学習する。
この2つの課題は、エージェントが与えられた環境で達成される可能性のある目標を自律的に発見し、それを達成するためのモータースキルを学ぶ、オープンエンドの学習フレームワークに直面する場合、さらに困難である。
本稿では,2つの課題を統合的に解決するオープンエンド学習ロボットアーキテクチャC-GRAILを提案する。
特に、アーキテクチャは、与えられた目標に対する期待性能の低下に基づいて、新しい関連するコンテストを検出し、無関係なコンペを無視することができる。
さらに、アーキテクチャは、既に取得したポリシーから知識をインポートする転送学習を利用して、新しいコンテキストのポリシーをすばやく学習することができる。
このアーキテクチャは、いくつかの異なる障害物を発生させる複数の障害物の存在下で、自律的に対象物に到達することを学習するロボットを含むシミュレーションロボット環境でテストされる。
提案したアーキテクチャは、提案した自律的文脈発見および伝達学習機構を使用しない他のモデルよりも優れている。
関連論文リスト
- I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。
新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。
我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文 参考訳(メタデータ) (2024-06-14T08:44:51Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Policy Architectures for Compositional Generalization in Control [71.61675703776628]
本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。
私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2022-03-10T06:44:24Z) - Avoiding Catastrophe: Active Dendrites Enable Multi-Task Learning in
Dynamic Environments [0.5277756703318046]
AIの鍵となる課題は、動的に変化する環境で動作する組み込みシステムを構築することだ。
標準的なディープラーニングシステムは、しばしば動的なシナリオで苦労する。
本稿では生物学的にインスパイアされたアーキテクチャをソリューションとして検討する。
論文 参考訳(メタデータ) (2021-12-31T19:52:42Z) - From Machine Learning to Robotics: Challenges and Opportunities for
Embodied Intelligence [113.06484656032978]
記事は、インテリジェンスが機械学習技術の進歩の鍵を握っていると主張している。
私たちは、インテリジェンスを具体化するための課題と機会を強調します。
本稿では,ロボット学習の最先端性を著しく向上させる研究の方向性を提案する。
論文 参考訳(メタデータ) (2021-10-28T16:04:01Z) - Self-supervised Reinforcement Learning with Independently Controllable
Subgoals [20.29444813790076]
自己監督エージェントは、環境の構造を活用することで、自身の目標を設定した。
それらのいくつかは、合成多目的環境における基本的な操作スキルを学ぶために応用された。
本稿では,環境コンポーネント間の関係を推定し,環境状態の異なる部分を独立に制御する,新たな自己管理エージェントを提案する。
論文 参考訳(メタデータ) (2021-09-09T10:21:02Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。