論文の概要: Continual Deep Reinforcement Learning with Task-Agnostic Policy Distillation
- arxiv url: http://arxiv.org/abs/2411.16532v1
- Date: Mon, 25 Nov 2024 16:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:19:31.762908
- Title: Continual Deep Reinforcement Learning with Task-Agnostic Policy Distillation
- Title(参考訳): タスク非依存型政策蒸留による継続的深層強化学習
- Authors: Muhammad Burhan Hafez, Kerim Erekmen,
- Abstract要約: TAPD(Task-Agnostic Policy Distillation)フレームワークが導入されている。
本稿では,継続学習の問題に対処する。
タスク非依存の蒸留知識を利用することで、下流タスクをより効率的に解決することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Central to the development of universal learning systems is the ability to solve multiple tasks without retraining from scratch when new data arrives. This is crucial because each task requires significant training time. Addressing the problem of continual learning necessitates various methods due to the complexity of the problem space. This problem space includes: (1) addressing catastrophic forgetting to retain previously learned tasks, (2) demonstrating positive forward transfer for faster learning, (3) ensuring scalability across numerous tasks, and (4) facilitating learning without requiring task labels, even in the absence of clear task boundaries. In this paper, the Task-Agnostic Policy Distillation (TAPD) framework is introduced. This framework alleviates problems (1)-(4) by incorporating a task-agnostic phase, where an agent explores its environment without any external goal and maximizes only its intrinsic motivation. The knowledge gained during this phase is later distilled for further exploration. Therefore, the agent acts in a self-supervised manner by systematically seeking novel states. By utilizing task-agnostic distilled knowledge, the agent can solve downstream tasks more efficiently, leading to improved sample efficiency. Our code is available at the repository: https://github.com/wabbajack1/TAPD.
- Abstract(参考訳): 普遍的な学習システムの開発の中心は、新しいデータが到着した時にスクラッチから再トレーニングすることなく、複数のタスクを解く能力である。
これは、各タスクがかなりのトレーニング時間を必要とするため、非常に重要です。
連続学習の問題に対処するには、問題空間の複雑さのために様々な方法が必要である。
課題空間は,(1) それまでの学習課題の維持を忘れること,(2) 学習の速さを示すこと,(3) 多数のタスクのスケーラビリティを確保すること,(4) タスクラベルを必要とせずに学習を容易にすること,などを含む。
本稿では,TAPD(Task-Agnostic Policy Distillation)フレームワークを紹介する。
エージェントが外部目標なしで環境を探索し、本質的なモチベーションのみを最大化するタスク非依存フェーズを組み込むことにより、(1)〜(4)の問題を軽減する。
この段階で得られた知識は後にさらなる探査のために蒸留される。
したがって、このエージェントは、体系的に新しい状態を求めることによって、自己監督的な振る舞いをする。
タスク非依存の蒸留知識を利用することで、下流タスクをより効率的に解き、サンプル効率を向上させることができる。
私たちのコードはリポジトリで利用可能です。
関連論文リスト
- Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - A Unified Meta-Learning Framework for Dynamic Transfer Learning [42.34180707803632]
動的タスクにおける知識伝達可能性のモデリングのための汎用メタ学習フレームワークL2Eを提案する。
L2E は,(1) 動的タスク間の効果的な知識伝達可能性,(2) 新しい目標タスクへの迅速な適応,(3) 歴史的目標タスクに対する破滅的な忘れの軽減,(4) 既存の静的移動学習アルゴリズムを取り入れた柔軟性,といった特性を享受している。
論文 参考訳(メタデータ) (2022-07-05T02:56:38Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - ConTinTin: Continual Learning from Task Instructions [101.36836925135091]
本研究は,新たな学習パラダイムであるConTinTinを定義した。
私たちの知る限り、NLPでConTinTinを研究するのは今回が初めてです。
論文 参考訳(メタデータ) (2022-03-16T10:27:18Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。