論文の概要: REPAINT: Knowledge Transfer in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.11827v3
- Date: Wed, 26 May 2021 05:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 12:44:27.453532
- Title: REPAINT: Knowledge Transfer in Deep Reinforcement Learning
- Title(参考訳): repaint:深層強化学習における知識伝達
- Authors: Yunzhe Tao, Sahika Genc, Jonathan Chung, Tao Sun, Sunil Mallya
- Abstract要約: 本研究では,深層強化学習における知識伝達のためのRePresentation And IN Transfer (REPAINT)アルゴリズムを提案する。
RePAINTは、オンライン学習において、事前訓練された教師ポリシーの表現を伝達するだけでなく、利点に基づく経験選択アプローチを用いて、オフポリティ学習において教師ポリシーに従って収集された有用なサンプルを転送する。
- 参考スコア(独自算出の注目度): 13.36223726517518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accelerating learning processes for complex tasks by leveraging previously
learned tasks has been one of the most challenging problems in reinforcement
learning, especially when the similarity between source and target tasks is
low. This work proposes REPresentation And INstance Transfer (REPAINT)
algorithm for knowledge transfer in deep reinforcement learning. REPAINT not
only transfers the representation of a pre-trained teacher policy in the
on-policy learning, but also uses an advantage-based experience selection
approach to transfer useful samples collected following the teacher policy in
the off-policy learning. Our experimental results on several benchmark tasks
show that REPAINT significantly reduces the total training time in generic
cases of task similarity. In particular, when the source tasks are dissimilar
to, or sub-tasks of, the target tasks, REPAINT outperforms other baselines in
both training-time reduction and asymptotic performance of return scores.
- Abstract(参考訳): 複雑なタスクに対する学習プロセスの高速化は、特にソースとターゲットタスクの類似性が低い場合において、強化学習において最も難しい問題の一つである。
本研究では,深層強化学習における知識伝達のためのREPAINTアルゴリズムを提案する。
repaintは、事前教育された教師政策の表現をオンポリシー学習中に転送するだけでなく、アドバンテージベースの経験選択アプローチを用いて、オフポリシー学習において教師政策に従って収集された有用なサンプルを転送する。
いくつかのベンチマークタスクの実験結果から、REPAINTはタスク類似性の一般的な場合のトレーニング時間を大幅に短縮することが示された。
特に、ソースタスクがサブタスクと異なる場合、ターゲットタスクであるREPAINTは、トレーニング時間短縮とリターンスコアの漸近パフォーマンスの両方において、他のベースラインを上回っます。
関連論文リスト
- Mitigating Interference in the Knowledge Continuum through Attention-Guided Incremental Learning [17.236861687708096]
Attention-Guided Incremental Learning' (AGILE)は、タスク間の干渉を効果的に軽減するために、コンパクトなタスク注意を組み込んだリハーサルベースのCLアプローチである。
AGILEは、タスク干渉を緩和し、複数のCLシナリオにおいてリハーサルベースのアプローチより優れていることで、一般化性能を著しく向上する。
論文 参考訳(メタデータ) (2024-05-22T20:29:15Z) - Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - Replay-enhanced Continual Reinforcement Learning [37.34722105058351]
本稿では,新しいタスクにおける既存のリプレイ方式の可塑性を大幅に向上させるリプレイ拡張手法であるRECALLを紹介する。
Continual Worldベンチマークの実験では、RECALLは純粋に完全なメモリリプレイよりもはるかに優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-11-20T06:21:52Z) - Online Continual Learning via the Knowledge Invariant and Spread-out
Properties [4.109784267309124]
継続的な学習の鍵となる課題は破滅的な忘れ方だ。
知識不変性とスプレッドアウト特性(OCLKISP)を用いたオンライン連続学習法を提案する。
提案手法を,CIFAR 100, Split SVHN, Split CUB200, Split Tiny-Image-Netの4つのベンチマークで実証的に評価した。
論文 参考訳(メタデータ) (2023-02-02T04:03:38Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z) - Learning Invariant Representation for Continual Learning [5.979373021392084]
継続的学習の重要な課題は、エージェントが新しいタスクに直面したときに、以前に学んだタスクを壊滅的に忘れることです。
連続学習のための学習不変表現(IRCL)という新しい擬似リハーサル法を提案する。
共有不変表現を分離することは、タスクのシーケンスを継続的に学習するのに役立つ。
論文 参考訳(メタデータ) (2021-01-15T15:12:51Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。