論文の概要: Learning Multi-Objective Curricula for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.03032v1
- Date: Wed, 6 Oct 2021 19:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:36:54.682615
- Title: Learning Multi-Objective Curricula for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための多目的カリキュラムの学習
- Authors: Jikun Kang, Miao Liu, Abhinav Gupta, Chris Pal, Xue Liu, Jie Fu
- Abstract要約: 深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
- 参考スコア(独自算出の注目度): 55.27879754113767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various automatic curriculum learning (ACL) methods have been proposed to
improve the sample efficiency and final performance of deep reinforcement
learning (DRL). They are designed to control how a DRL agent collects data,
which is inspired by how humans gradually adapt their learning processes to
their capabilities. For example, ACL can be used for subgoal generation, reward
shaping, environment generation, or initial state generation. However, prior
work only considers curriculum learning following one of the aforementioned
predefined paradigms. It is unclear which of these paradigms are complementary,
and how the combination of them can be learned from interactions with the
environment. Therefore, in this paper, we propose a unified automatic
curriculum learning framework to create multi-objective but coherent curricula
that are generated by a set of parametric curriculum modules. Each curriculum
module is instantiated as a neural network and is responsible for generating a
particular curriculum. In order to coordinate those potentially conflicting
modules in unified parameter space, we propose a multi-task hyper-net learning
framework that uses a single hyper-net to parameterize all those curriculum
modules. In addition to existing hand-designed curricula paradigms, we further
design a flexible memory mechanism to learn an abstract curriculum, which may
otherwise be difficult to design manually. We evaluate our method on a series
of robotic manipulation tasks and demonstrate its superiority over other
state-of-the-art ACL methods in terms of sample efficiency and final
performance.
- Abstract(参考訳): 深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)法が提案されている。
DRLエージェントがデータの収集方法を制御するように設計されており、人間の学習プロセスの能力への適応方法にインスパイアされている。
例えば、ACLはサブゴール生成、報酬形成、環境生成、初期状態生成に使用することができる。
しかし、先行研究は、前述の事前定義されたパラダイムの1つに従ってカリキュラム学習を考えるのみである。
どちらのパラダイムが補完的であり、それらの組み合わせが環境との相互作用からどのように学べるのかは不明である。
そこで本稿では,パラメトリックカリキュラムモジュール群によって生成される多目的だが一貫性のあるカリキュラムを作成するための統合型カリキュラム学習フレームワークを提案する。
各カリキュラムモジュールはニューラルネットワークとしてインスタンス化され、特定のカリキュラムを生成する責任を負う。
統一パラメータ空間における競合する可能性のあるモジュールのコーディネートのために,単一のハイパーネットを用いて全てのカリキュラムモジュールをパラメータ化するマルチタスクハイパーネット学習フレームワークを提案する。
既存の手作業によるカリキュラムパラダイムに加えて,手作業で設計することが困難な抽象カリキュラムを学習するための柔軟なメモリ機構を設計する。
本手法は,ロボット操作の一連のタスクにおいて評価し,サンプル効率と最終性能の観点から,他の最先端のACL手法よりも優れていることを示す。
関連論文リスト
- ConML: A Universal Meta-Learning Framework with Task-Level Contrastive Learning [49.447777286862994]
ConMLは、さまざまなメタ学習アルゴリズムに適用可能な、普遍的なメタ学習フレームワークである。
我々は、ConMLが最適化ベース、メートル法ベース、およびアモータイズベースメタ学習アルゴリズムとシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2024-10-08T12:22:10Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes [6.652837942112205]
大規模言語モデル(LLM)は、テキストとして提供される少数の例に基づいて、目に見えないタスクを実行するという異常な能力を示している。
我々は、ICLモデルによるデータ効率の向上と、より安定した収束を実現するための効果的なカリキュラム学習戦略をいくつか提案する。
実験の結果, ICLモデルでは, 従来の課題を混在させながら, 段階的に難しいタスクを学習することで, 難易度を効果的に学習できることが判明した。
論文 参考訳(メタデータ) (2024-04-04T16:15:23Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。
このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。
各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文 参考訳(メタデータ) (2023-09-15T02:42:03Z) - PASTA: Pretrained Action-State Transformer Agents [10.654719072766495]
自己教師型学習は、様々なコンピューティング領域において革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータに基づいて、トランスフォーマーモデルを事前訓練する。
強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。
論文 参考訳(メタデータ) (2023-07-20T15:09:06Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Meta-Learning via Classifier(-free) Guidance [5.812784742024491]
最先端のメタ学習技術は、目に見えないタスクへのゼロショット適応を最適化しない。
本稿では,自然言語指導によるゼロショット性能向上のためのメタ学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T11:09:35Z) - Meta-Reinforcement Learning for Adaptive Control of Second Order Systems [3.131740922192114]
プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。
本稿では,メタ強化学習(meta-RL)制御戦略を定式化し,モデル構造などのトレーニングにおいて,既知のオフライン情報を活用する。
重要な設計要素は、トレーニング中にモデルベースの情報をオフラインで利用し、新しい環境と対話するためのモデルフリーのポリシー構造を維持することである。
論文 参考訳(メタデータ) (2022-09-19T18:51:33Z) - Meta Automatic Curriculum Learning [35.13646854355393]
メタACLの概念を導入し,それをブラックボックスRL学習者の文脈で形式化する。
本稿では,メタACLの初回インスタンス化であるAGAINについて述べる。
論文 参考訳(メタデータ) (2020-11-16T14:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。