論文の概要: Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey
- arxiv url: http://arxiv.org/abs/2003.04960v2
- Date: Thu, 17 Sep 2020 22:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 20:27:22.883830
- Title: Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey
- Title(参考訳): 強化学習領域のためのカリキュラム学習:フレームワークと調査
- Authors: Sanmit Narvekar and Bei Peng and Matteo Leonetti and Jivko Sinapov and
Matthew E. Taylor and Peter Stone
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。
本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
- 参考スコア(独自算出の注目度): 53.73359052511171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a popular paradigm for addressing sequential
decision tasks in which the agent has only limited environmental feedback.
Despite many advances over the past three decades, learning in many domains
still requires a large amount of interaction with the environment, which can be
prohibitively expensive in realistic scenarios. To address this problem,
transfer learning has been applied to reinforcement learning such that
experience gained in one task can be leveraged when starting to learn the next,
harder task. More recently, several lines of research have explored how tasks,
or data samples themselves, can be sequenced into a curriculum for the purpose
of learning a problem that may otherwise be too difficult to learn from
scratch. In this article, we present a framework for curriculum learning (CL)
in reinforcement learning, and use it to survey and classify existing CL
methods in terms of their assumptions, capabilities, and goals. Finally, we use
our framework to find open problems and suggest directions for future RL
curriculum learning research.
- Abstract(参考訳): 強化学習(rl)は、エージェントが限られた環境フィードバックしか持たない逐次決定タスクに対処するための一般的なパラダイムである。
過去30年間に多くの進歩があったにもかかわらず、多くの領域での学習は依然として環境との大量の相互作用を必要とする。
この問題に対処するために、トランスファー学習は強化学習に応用され、1つのタスクで得られた経験を次の困難なタスクを学習し始めるときに活用することができる。
最近では、タスクやデータサンプル自体が、スクラッチから学ぶことが難しい問題を学ぶために、どのようにカリキュラムにシーケンス化できるか、いくつかの研究が進められている。
本稿では,強化学習におけるカリキュラム学習(CL)の枠組みについて述べるとともに,その前提,能力,目標の観点から,既存のCLメソッドを調査・分類するために利用する。
最後に,このフレームワークを用いて,今後のrlカリキュラム学習研究の方向性を提案する。
関連論文リスト
- Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - When Meta-Learning Meets Online and Continual Learning: A Survey [39.53836535326121]
メタ学習は学習アルゴリズムを最適化するためのデータ駆動型アプローチである。
継続的な学習とオンライン学習はどちらも、ストリーミングデータでモデルを漸進的に更新する。
本稿では,一貫した用語と形式記述を用いて,様々な問題設定を整理する。
論文 参考訳(メタデータ) (2023-11-09T09:49:50Z) - A Comprehensive Survey of Forgetting in Deep Learning Beyond Continual
Learning [76.47138162283714]
蓄積とは、以前取得した情報や知識の喪失または劣化を指す。
フォッテッティングは、深層学習における様々な研究領域でよく見られる現象である。
調査では、忘れることは二重刃の剣であり、ある場合には有益で望ましいと論じている。
論文 参考訳(メタデータ) (2023-07-16T16:27:58Z) - Teacher-student curriculum learning for reinforcement learning [1.7259824817932292]
強化学習(rl)は、シーケンシャルな意思決定問題に対する一般的なパラダイムである。
深部強化学習手法のサンプル非効率性は,実世界の問題に適用する際の重要な障害である。
そこで我々は,学生が選択した課題の解き方を学習している間に,生徒の課題を選択する教師を同時に訓練する学習環境を提案する。
論文 参考訳(メタデータ) (2022-10-31T14:45:39Z) - Toward Sustainable Continual Learning: Detection and Knowledge
Repurposing of Similar Tasks [31.095642850920385]
本稿では,連続学習者が類似タスクと異種タスクを混在させるパラダイムを提案する。
本稿では,追加学習を必要としないタスク類似度検出機能を用いた連続学習フレームワークを提案する。
実験の結果,提案フレームワークは広く使用されているコンピュータビジョンのベンチマークで競合的に動作することがわかった。
論文 参考訳(メタデータ) (2022-10-11T19:35:30Z) - Curriculum Learning: A Survey [65.31516318260759]
カリキュラム学習戦略は、機械学習のあらゆる分野で成功している。
我々は,様々な分類基準を考慮して,カリキュラム学習アプローチの分類を手作業で構築する。
集約型クラスタリングアルゴリズムを用いて,カリキュラム学習手法の階層木を構築する。
論文 参考訳(メタデータ) (2021-01-25T20:08:32Z) - Continual Lifelong Learning in Natural Language Processing: A Survey [3.9103337761169943]
連続学習(continual learning, cl)は,情報システムが時間を越えた連続的なデータストリームから学ぶことを可能にする。
既存のディープラーニングアーキテクチャでは、以前獲得した知識をほとんど忘れずに新しいタスクを学習することは困難である。
我々は様々なnlpタスクのレンズを通してclの問題を検討する。
論文 参考訳(メタデータ) (2020-12-17T18:44:36Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Learning Reusable Options for Multi-Task Reinforcement Learning [27.864350957396322]
再利用可能な選択肢を学習することで、既存の体験を活用するためのフレームワークを提案する。
エージェントが少数の問題を解決するためのポリシーを学習した後、これらのポリシーから生成されたトラジェクトリを使って再利用可能な選択肢を学習できることを示す。
論文 参考訳(メタデータ) (2020-01-06T13:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。