論文の概要: Learning state correspondence of reinforcement learning tasks for
knowledge transfer
- arxiv url: http://arxiv.org/abs/2209.06604v1
- Date: Wed, 14 Sep 2022 12:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 12:55:24.252871
- Title: Learning state correspondence of reinforcement learning tasks for
knowledge transfer
- Title(参考訳): 知識伝達のための強化学習タスクの学習状態対応
- Authors: Marko Ruman and Tatiana V. Guy
- Abstract要約: 知識の一般化と再利用は、真にインテリジェントなエージェントを作成するための基本的な要件である。
本研究では,RLタスクに適した生成逆ネットワークモデルに基づく1対1の伝達学習の汎用的手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning has shown an ability to achieve super-human
performance in solving complex reinforcement learning (RL) tasks only from
raw-pixels. However, it fails to reuse knowledge from previously learnt tasks
to solve new, unseen ones. Generalizing and reusing knowledge are the
fundamental requirements for creating a truly intelligent agent. This work
proposes a general method for one-to-one transfer learning based on generative
adversarial network model tailored to RL task.
- Abstract(参考訳): 深層強化学習は、複雑な強化学習(RL)タスクを原画素のみから解く際に、超人的性能を達成する能力を示した。
しかし、学習済みのタスクから知識を再利用して、新しい未知のタスクを解決することに失敗する。
知識の一般化と再利用は、真にインテリジェントなエージェントを作成するための基本的な要件である。
本研究では,RLタスクに適した生成逆ネットワークモデルに基づく1対1の伝達学習法を提案する。
関連論文リスト
- Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z) - Factorizing Knowledge in Neural Networks [65.57381498391202]
知識伝達タスクKF(Knowledge Factorization)を提案する。
KFは、それをいくつかの要因ネットワークに分解することを目的としており、それぞれが専用のタスクのみを処理し、ソースネットワークから分解されたタスク固有の知識を維持する。
学習した表現と入力の相互情報を最適化してKFを実行するための情報理論的目的であるInfoMax-Bottleneck(IMB)を導入する。
論文 参考訳(メタデータ) (2022-07-04T09:56:49Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Multi-Source Transfer Learning for Deep Model-Based Reinforcement
Learning [0.6445605125467572]
強化学習における重要な課題は、エージェントが与えられたタスクをマスターするために必要な環境との相互作用の数を減らすことである。
伝達学習は、以前に学習したタスクから知識を再利用することでこの問題に対処することを提案する。
本研究の目的は,モジュール型マルチソーストランスファー学習技術を用いて,これらの課題に対処することである。
論文 参考訳(メタデータ) (2022-05-28T12:04:52Z) - Hierarchical Self-supervised Augmented Knowledge Distillation [1.9355744690301404]
本稿では,ネットワークを誘導し,本来の認識タスクと自己教師付き補助タスクの共分散を学習するための,新たな自己教師型拡張タスクを提案する。
正規分類能力を失うことなく、表現力を向上させるためのより豊かな知識として実証される。
CIFAR-100では平均2.56%,ImageNetでは0.77%向上した。
論文 参考訳(メタデータ) (2021-07-29T02:57:21Z) - Split-and-Bridge: Adaptable Class Incremental Learning within a Single
Neural Network [0.20305676256390928]
継続的学習は、ディープラーニングコミュニティで大きな問題である。
本稿では,Split-and-Bridgeと呼ばれる新しい連続学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-03T05:51:53Z) - Incremental Embedding Learning via Zero-Shot Translation [65.94349068508863]
現在の最先端のインクリメンタル学習手法は、従来の分類ネットワークにおける破滅的な忘れ方問題に取り組む。
ゼロショット変換クラス増分法(ZSTCI)と呼ばれる新しい組込みネットワークのクラス増分法を提案する。
さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。
論文 参考訳(メタデータ) (2020-12-31T08:21:37Z) - A Combinatorial Perspective on Transfer Learning [27.7848044115664]
モジュラーソリューションの学習によって、目に見えない分散データと潜在的に異なる分散データの両方を効果的に一般化することができるかを検討する。
タスクセグメンテーション,モジュール型学習,メモリベースアンサンブルの組み合わせによって,指数関数的に増加する多くの未確認タスクの一般化がもたらされる。
論文 参考訳(メタデータ) (2020-10-23T09:53:31Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。