論文の概要: Generalizing to New Tasks via One-Shot Compositional Subgoals
- arxiv url: http://arxiv.org/abs/2205.07716v1
- Date: Mon, 16 May 2022 14:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 18:51:02.436400
- Title: Generalizing to New Tasks via One-Shot Compositional Subgoals
- Title(参考訳): ワンショット構成サブゴールによる新しいタスクへの一般化
- Authors: Xihan Bian and Oscar Mendez and Simon Hadfield
- Abstract要約: 以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
- 参考スコア(独自算出の注目度): 23.15624959305799
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ability to generalize to previously unseen tasks with little to no
supervision is a key challenge in modern machine learning research. It is also
a cornerstone of a future "General AI". Any artificially intelligent agent
deployed in a real world application, must adapt on the fly to unknown
environments. Researchers often rely on reinforcement and imitation learning to
provide online adaptation to new tasks, through trial and error learning.
However, this can be challenging for complex tasks which require many timesteps
or large numbers of subtasks to complete. These "long horizon" tasks suffer
from sample inefficiency and can require extremely long training times before
the agent can learn to perform the necessary longterm planning. In this work,
we introduce CASE which attempts to address these issues by training an
Imitation Learning agent using adaptive "near future" subgoals. These subgoals
are recalculated at each step using compositional arithmetic in a learned
latent representation space. In addition to improving learning efficiency for
standard long-term tasks, this approach also makes it possible to perform
one-shot generalization to previously unseen tasks, given only a single
reference trajectory for the task in a different environment. Our experiments
show that the proposed approach consistently outperforms the previous
state-of-the-art compositional Imitation Learning approach by 30%.
- Abstract(参考訳): 以前は見つからなかったタスクをほとんど監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
それはまた、将来の"General AI"の基盤でもある。
現実世界のアプリケーションにデプロイされる人工知能エージェントは、未知の環境に適応しなければならない。
研究者はしばしば、試行錯誤学習を通じて、新しいタスクへのオンライン適応を提供するために強化と模倣学習に頼っている。
しかし、これは多くのタイムステップや大量のサブタスクを完了させる複雑なタスクでは困難である。
これらの「長い地平線」タスクはサンプルの非効率性に悩まされ、エージェントが必要な長期計画を実行するために学習するまでに非常に長い訓練時間を要する。
本研究では,適応型「近未来」サブゴールを用いた模倣学習エージェントを訓練することにより,これらの課題に対処しようとするCASEを紹介する。
これらの部分環は、学習された潜在表現空間における合成演算を用いて各ステップで再計算される。
標準的な長期タスクの学習効率の向上に加えて、異なる環境におけるタスクに対する単一の参照軌跡のみを考慮し、これまで見られなかったタスクに対してワンショットの一般化を可能にする。
実験の結果,提案手法は,従来の作曲模倣学習手法を30%も上回っていることがわかった。
関連論文リスト
- You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Towards More Generalizable One-shot Visual Imitation Learning [81.09074706236858]
汎用ロボットは、幅広いタスクを習得し、過去の経験を生かして、新しいタスクを素早く学ぶことができるべきである。
ワンショット模倣学習(OSIL)は、専門家のデモンストレーションでエージェントを訓練することで、この目標にアプローチする。
我々は、より野心的なマルチタスク設定を調査することで、より高度な一般化能力を追求する。
論文 参考訳(メタデータ) (2021-10-26T05:49:46Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Transforming task representations to perform novel tasks [12.008469282323492]
知性の重要な側面は、直接の経験(ゼロショット)なしで新しいタスクに適応できる能力である。
本稿では,従来のタスクとの関係に基づいて,新しいタスクに適応するための一般的な計算フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T23:41:57Z) - Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。
そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。
本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文 参考訳(メタデータ) (2020-04-07T07:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。