論文の概要: Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning
- arxiv url: http://arxiv.org/abs/2004.03168v1
- Date: Tue, 7 Apr 2020 07:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 22:36:01.662915
- Title: Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning
- Title(参考訳): 長期学習の代わりにAGAINを試す: 自動カリキュラム学習のための事前学習
- Authors: R\'emy Portelas and Katja Hofmann and Pierre-Yves Oudeyer
- Abstract要約: Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。
そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。
本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
- 参考スコア(独自算出の注目度): 39.489869446313065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in the Deep RL (DRL) community is to train agents able to
generalize over unseen situations, which is often approached by training them
on a diversity of tasks (or environments). A powerful method to foster
diversity is to procedurally generate tasks by sampling their parameters from a
multi-dimensional distribution, enabling in particular to propose a different
task for each training episode. In practice, to get the high diversity of
training tasks necessary for generalization, one has to use complex procedural
generation systems. With such generators, it is hard to get prior knowledge on
the subset of tasks that are actually learnable at all (many generated tasks
may be unlearnable), what is their relative difficulty and what is the most
efficient task distribution ordering for training. A typical solution in such
cases is to rely on some form of Automated Curriculum Learning (ACL) to adapt
the sampling distribution. One limit of current approaches is their need to
explore the task space to detect progress niches over time, which leads to a
loss of time. Additionally, we hypothesize that the induced noise in the
training data may impair the performances of brittle DRL learners. We address
this problem by proposing a two stage ACL approach where 1) a teacher algorithm
first learns to train a DRL agent with a high-exploration curriculum, and then
2) distills learned priors from the first run to generate an "expert
curriculum" to re-train the same agent from scratch. Besides demonstrating 50%
improvements on average over the current state of the art, the objective of
this work is to give a first example of a new research direction oriented
towards refining ACL techniques over multiple learners, which we call Classroom
Teaching.
- Abstract(参考訳): ディープ・RL(Dep RL)コミュニティにおける大きな課題は、見えない状況に対して一般化できるエージェントを訓練することである。
多様性を促進する強力な方法は、多次元分布からパラメータをサンプリングして手続き的にタスクを生成し、特に各トレーニングエピソードごとに異なるタスクを提案することである。
実際、一般化に必要な訓練タスクの多様性を高めるためには、複雑な手続き生成システムを使う必要がある。
このようなジェネレータでは、実際に学習可能なタスクのサブセット(多くの生成されたタスクは理解できないかもしれない)、その相対的な難易度と、トレーニングのための最も効率的なタスク分散順序付けについて、事前の知識を得ることが難しい。
このような場合の典型的な解決策は、サンプリング分布に適応するために、ある種のACL(Automated Curriculum Learning)に依存することである。
現在のアプローチの1つの制限は、時間の経過とともに進捗ニッチを検出するためにタスク空間を探索する必要性である。
さらに、トレーニングデータ中の誘導ノイズが脆性DRL学習者のパフォーマンスを損なう可能性があると仮定する。
2段階のACLアプローチを提案することでこの問題に対処する。
1)教師アルゴリズムは、まず、高探索カリキュラムでDRLエージェントを訓練し、次に学習する。
2) 最初の実行から学習した蒸留液は、同じエージェントをスクラッチから再トレーニングする「専門家カリキュラム」を生成する。
本研究の目的は,最先端技術よりも平均50%改善されていることを示すことに加えて,複数の学習者を対象としたACL技術の改良に向けた新たな研究の方向性を示すことにある。
関連論文リスト
- Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Understanding the Complexity Gains of Single-Task RL with a Curriculum [83.46923851724408]
強化学習 (Reinforcement Learning, RL) の問題は, 十分に形が整った報酬なしでは困難である。
カリキュラムで定義されるマルチタスクRL問題として、シングルタスクRL問題を再構成する理論的枠組みを提供する。
マルチタスクRL問題における各タスクの逐次解法は、元の単一タスク問題の解法よりも計算効率がよいことを示す。
論文 参考訳(メタデータ) (2022-12-24T19:46:47Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Abstract Demonstrations and Adaptive Exploration for Efficient and
Stable Multi-step Sparse Reward Reinforcement Learning [44.968170318777105]
本稿では、人間の体験にインスパイアされた2つのコンポーネント、抽象的なデモンストレーションと適応的な探索を統合したDRL探査手法A2を提案する。
A2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。
A2は、一般的なDRLアルゴリズムがこれらの環境でより効率的に安定して学習できることを示す。
論文 参考訳(メタデータ) (2022-07-19T12:56:41Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - Variational Automatic Curriculum Learning for Sparse-Reward Cooperative
Multi-Agent Problems [42.973910399533054]
協調型マルチエージェント強化学習の課題を解決するために,カリキュラム学習アルゴリズムである変分自動カリキュラム学習(VACL)を導入する。
VACLアルゴリズムはこの変分パラダイムを,タスク拡張とエンティティ進行という2つの実践的要素で実現している。
実験の結果,VACLはスパース・リワード問題の集合を多数のエージェントで解くことがわかった。
論文 参考訳(メタデータ) (2021-11-08T16:35:08Z) - TeachMyAgent: a Benchmark for Automatic Curriculum Learning in Deep RL [23.719833581321033]
複数のタスクに一般化できる自律エージェントのトレーニングは、Deep Reinforcement Learning (DRL)研究の重要なターゲットです。
DRLアルゴリズムの改善と並行して、ACL(Automatic Curriculum Learning)は、進化する能力にタスク選択を適用することで、教師アルゴリズムがDRLエージェントをより効率的に訓練する方法を研究する。
DRLエージェントを比較するために複数の標準ベンチマークが存在するが、現在ACLアルゴリズムにはそのようなものは存在しない。
論文 参考訳(メタデータ) (2021-03-17T17:59:22Z) - Meta Automatic Curriculum Learning [35.13646854355393]
メタACLの概念を導入し,それをブラックボックスRL学習者の文脈で形式化する。
本稿では,メタACLの初回インスタンス化であるAGAINについて述べる。
論文 参考訳(メタデータ) (2020-11-16T14:56:42Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。