論文の概要: CLUTR: Curriculum Learning via Unsupervised Task Representation Learning
- arxiv url: http://arxiv.org/abs/2210.10243v1
- Date: Wed, 19 Oct 2022 01:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:07:20.652844
- Title: CLUTR: Curriculum Learning via Unsupervised Task Representation Learning
- Title(参考訳): CLUTR:教師なしタスク表現学習によるカリキュラム学習
- Authors: Abdus Salam Azad, Izzeddin Gur, Aleksandra Faust, Pieter Abbeel, and
Ion Stoica
- Abstract要約: CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 130.79246770546413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) algorithms are often known for sample
inefficiency and difficult generalization. Recently, Unsupervised Environment
Design (UED) emerged as a new paradigm for zero-shot generalization by
simultaneously learning a task distribution and agent policies on the sampled
tasks. This is a non-stationary process where the task distribution evolves
along with agent policies, creating an instability over time. While past works
demonstrated the potential of such approaches, sampling effectively from the
task space remains an open challenge, bottlenecking these approaches. To this
end, we introduce CLUTR: a novel curriculum learning algorithm that decouples
task representation and curriculum learning into a two-stage optimization. It
first trains a recurrent variational autoencoder on randomly generated tasks to
learn a latent task manifold. Next, a teacher agent creates a curriculum by
maximizing a minimax REGRET-based objective on a set of latent tasks sampled
from this manifold. By keeping the task manifold fixed, we show that CLUTR
successfully overcomes the non-stationarity problem and improves stability. Our
experimental results show CLUTR outperforms PAIRED, a principled and popular
UED method, in terms of generalization and sample efficiency in the challenging
CarRacing and navigation environments: showing an 18x improvement on the F1
CarRacing benchmark. CLUTR also performs comparably to the non-UED
state-of-the-art for CarRacing, outperforming it in nine of the 20 tracks.
CLUTR also achieves a 33% higher solved rate than PAIRED on a set of 18
out-of-distribution navigation tasks.
- Abstract(参考訳): 強化学習(rl)アルゴリズムは、しばしばサンプル非効率と難しい一般化で知られている。
近年,教師なし環境設計(UED)は,タスク分布とエージェントポリシーを同時に学習することで,ゼロショット一般化のための新たなパラダイムとして登場した。
これは、エージェントポリシーとともにタスク分散が進化し、時間の経過とともに不安定になる非定常プロセスである。
過去の研究はそのようなアプローチの可能性を示したが、タスク空間から効果的にサンプリングすることは未解決の課題であり、これらのアプローチのボトルネックとなっている。
そこで本研究では,タスク表現とカリキュラム学習を2段階最適化に分離する新しいカリキュラム学習アルゴリズムであるCLUTRを紹介する。
まず、ランダムに生成されたタスクのリカレント変分オートエンコーダを訓練し、潜在タスク多様体を学ぶ。
次に、教師エージェントは、この多様体からサンプリングされた潜在タスクのセットに基づいて、ミニマックスREGRETに基づく目的を最大化することによりカリキュラムを作成する。
タスク多様体の固定を保ちながら、CLUTRは非定常問題を克服し、安定性を向上させる。
実験の結果、CLUTRは、F1 CarRacingベンチマークの18倍の改善を示すCarRacingおよびナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていた。
CLUTRは、CarRacingの非UEDの最先端と互換性があり、20トラック中9トラックで性能を上回っている。
clutrはまた、18の分散ナビゲーションタスクのペアよりも33%高い解決率を達成している。
関連論文リスト
- Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Sample Efficient Reinforcement Learning by Automatically Learning to
Compose Subtasks [3.1594865504808944]
サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。
我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-01-25T15:06:40Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - On the Benefit of Optimal Transport for Curriculum Reinforcement Learning [32.59609255906321]
タスク分布間のキュリキュラをフレーミングすることに焦点を当てる。
我々は,カリキュラムの生成を制約付き最適輸送問題とする。
ベンチマークでは、既存のCRL法により、このカリキュラム生成方法が改善できることが示されている。
論文 参考訳(メタデータ) (2023-09-25T12:31:37Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Curriculum Reinforcement Learning using Optimal Transport via Gradual
Domain Adaptation [46.103426976842336]
強化学習(CRL)は、簡単なタスクから始まり、徐々に難しいタスクへと学習する一連のタスクを作成することを目的としている。
本研究では、ソース(補助的)とターゲットタスク分布の間のカリキュラムとしてCRLをフレーミングするという考え方に焦点をあてる。
半教師付き学習における段階的ドメイン適応の洞察に触発されて、CRLのタスク分散シフトを小さなシフトに分解することで、自然なカリキュラムを作成する。
論文 参考訳(メタデータ) (2022-10-18T22:33:33Z) - Variational Automatic Curriculum Learning for Sparse-Reward Cooperative
Multi-Agent Problems [42.973910399533054]
協調型マルチエージェント強化学習の課題を解決するために,カリキュラム学習アルゴリズムである変分自動カリキュラム学習(VACL)を導入する。
VACLアルゴリズムはこの変分パラダイムを,タスク拡張とエンティティ進行という2つの実践的要素で実現している。
実験の結果,VACLはスパース・リワード問題の集合を多数のエージェントで解くことがわかった。
論文 参考訳(メタデータ) (2021-11-08T16:35:08Z) - Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。
そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。
本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文 参考訳(メタデータ) (2020-04-07T07:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。