論文の概要: Transfer Learning and Curriculum Learning in Sokoban
- arxiv url: http://arxiv.org/abs/2105.11702v1
- Date: Tue, 25 May 2021 07:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 01:32:25.132875
- Title: Transfer Learning and Curriculum Learning in Sokoban
- Title(参考訳): 宗光盤における転校学習とカリキュラム学習
- Authors: Zhao Yang, Mike Preuss, Aske Plaat
- Abstract要約: 従来の知識がソコバンタスクの学習をいかに改善するかを示す。
実際に,簡単なタスクから複雑なタスクまで,カリキュラム学習がソコバンでどのように機能するかを示す。
- 参考スコア(独自算出の注目度): 5.563631490799427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning can speed up training in machine learning and is regularly
used in classification tasks. It reuses prior knowledge from other tasks to
pre-train networks for new tasks. In reinforcement learning, learning actions
for a behavior policy that can be applied to new environments is still a
challenge, especially for tasks that involve much planning. Sokoban is a
challenging puzzle game. It has been used widely as a benchmark in
planning-based reinforcement learning. In this paper, we show how prior
knowledge improves learning in Sokoban tasks. We find that reusing feature
representations learned previously can accelerate learning new, more complex,
instances. In effect, we show how curriculum learning, from simple to complex
tasks, works in Sokoban. Furthermore, feature representations learned in
simpler instances are more general, and thus lead to positive transfers towards
more complex tasks, but not vice versa. We have also studied which part of the
knowledge is most important for transfer to succeed, and identify which layers
should be used for pre-training.
- Abstract(参考訳): 転送学習は機械学習のトレーニングを高速化し、分類タスクで定期的に使用される。
他のタスクからの事前知識を、新しいタスクのための事前トレーニングネットワークに再利用する。
強化学習では、新しい環境に適用可能な行動ポリシーの学習行動は依然として課題であり、特に多くの計画に関わるタスクでは難しい。
ソコバンは難解なパズルゲームです。
計画に基づく強化学習のベンチマークとして広く使われている。
本稿では,事前知識が学習をいかに改善するかを示す。
以前に学習した特徴表現の再利用は、新しいより複雑なインスタンスの学習を加速できる。
実際に,簡単なタスクから複雑なタスクまで,カリキュラム学習がソコバンでどのように機能するかを示す。
さらに、より単純なインスタンスで学習した特徴表現はより一般的であり、より複雑なタスクへ正の移動をもたらすが、その逆は起こらない。
我々はまた、知識のどの部分が成功への転向に最も重要であるかを研究し、どの層を事前学習に使用するべきかを特定した。
関連論文リスト
- Beyond Not-Forgetting: Continual Learning with Backward Knowledge
Transfer [39.99577526417276]
継続学習(CL)では、エージェントは、新しいタスクと古いタスクの両方の学習性能を向上させることができる。
既存のCL手法の多くは、古いタスクに対する学習モデルの修正を最小化することによって、ニューラルネットワークの破滅的な忘れに対処することに焦点を当てている。
データ再生のない固定容量ニューラルネットワークに対して,バックワードノウルEdge tRansfer (CUBER) を用いた新しいCL法を提案する。
論文 参考訳(メタデータ) (2022-11-01T23:55:51Z) - Teacher-student curriculum learning for reinforcement learning [1.7259824817932292]
強化学習(rl)は、シーケンシャルな意思決定問題に対する一般的なパラダイムである。
深部強化学習手法のサンプル非効率性は,実世界の問題に適用する際の重要な障害である。
そこで我々は,学生が選択した課題の解き方を学習している間に,生徒の課題を選択する教師を同時に訓練する学習環境を提案する。
論文 参考訳(メタデータ) (2022-10-31T14:45:39Z) - Transferability in Deep Learning: A Survey [80.67296873915176]
知識を習得し再利用する能力は、ディープラーニングにおける伝達可能性として知られている。
本研究は,深層学習における異なる孤立領域と伝達可能性との関係を関連付けるための調査である。
我々はベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニング手法の公平な評価を可能にする。
論文 参考訳(メタデータ) (2022-01-15T15:03:17Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Curriculum Learning with Hindsight Experience Replay for Sequential
Object Manipulation Tasks [1.370633147306388]
本稿では,カリキュラム学習とHER(Hindsight Experience Replay)を組み合わせて,逐次的なオブジェクト操作タスクを学習するアルゴリズムを提案する。
このアルゴリズムは、多くのオブジェクト操作タスクに固有のリカレント構造を利用し、元のシミュレーションで学習プロセス全体を各ソースタスクに調整することなく実装する。
論文 参考訳(メタデータ) (2020-08-21T08:59:28Z) - Learning Transferable Concepts in Deep Reinforcement Learning [0.7161783472741748]
感覚入力の離散的な表現を学習することで、複数のタスクに共通するハイレベルな抽象化が得られることを示す。
特に,情報理論のアプローチに従って,自己超越によってそのような表現を学習することは可能であることを示す。
本手法は, 未知タスクと未知タスクの両方において, サンプル効率を高めるための, 機関車および最適制御タスクの概念を学習することができる。
論文 参考訳(メタデータ) (2020-05-16T04:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。