論文の概要: Knowledge Transfer in Deep Reinforcement Learning via an RL-Specific GAN-Based Correspondence Function
- arxiv url: http://arxiv.org/abs/2209.06604v2
- Date: Mon, 11 Nov 2024 17:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:40.355325
- Title: Knowledge Transfer in Deep Reinforcement Learning via an RL-Specific GAN-Based Correspondence Function
- Title(参考訳): RL特化GAN対応関数を用いた深層強化学習における知識伝達
- Authors: Marko Ruman, Tatiana V. Guy,
- Abstract要約: 本稿では,強化学習に特化したサイクル生成適応型ネットワークを改良する新しいアプローチを紹介する。
本手法は, 同一タスクにおける100%の知識伝達と, 100%の知識伝達, 30%のトレーニング時間短縮を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Deep reinforcement learning has demonstrated superhuman performance in complex decision-making tasks, but it struggles with generalization and knowledge reuse - key aspects of true intelligence. This article introduces a novel approach that modifies Cycle Generative Adversarial Networks specifically for reinforcement learning, enabling effective one-to-one knowledge transfer between two tasks. Our method enhances the loss function with two new components: model loss, which captures dynamic relationships between source and target tasks, and Q-loss, which identifies states significantly influencing the target decision policy. Tested on the 2-D Atari game Pong, our method achieved 100% knowledge transfer in identical tasks and either 100% knowledge transfer or a 30% reduction in training time for a rotated task, depending on the network architecture. In contrast, using standard Generative Adversarial Networks or Cycle Generative Adversarial Networks led to worse performance than training from scratch in the majority of cases. The results demonstrate that the proposed method ensured enhanced knowledge generalization in deep reinforcement learning.
- Abstract(参考訳): 深層強化学習は、複雑な意思決定タスクにおいて超人的なパフォーマンスを示すが、それは一般化と知識の再利用(真の知性の重要な側面)に苦慮している。
本稿では、強化学習に特化したサイクル生成適応型ネットワークを改良し、2つのタスク間で効果的な1対1の知識伝達を可能にする新しいアプローチを提案する。
提案手法は,対象タスクとソースタスクの動的関係をキャプチャするモデル損失と,対象決定ポリシーに大きく影響を及ぼす状態を特定するQ損失という,2つの新しいコンポーネントで損失関数を強化する。
2次元アタリゲームPongでテストした結果、ネットワークアーキテクチャによって、同一タスクにおける100%の知識伝達、100%の知識伝達、30%の学習時間の短縮が達成された。
対照的に、標準的なジェネレーティブ・アドバイサル・ネットワークやサイクル・ジェネレーティブ・アドバイサル・ネットワークを使用することで、ほとんどのケースでスクラッチからトレーニングするよりもパフォーマンスが悪くなりました。
その結果,提案手法は深層強化学習における知識の一般化を確実にすることを示した。
関連論文リスト
- Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z) - Factorizing Knowledge in Neural Networks [65.57381498391202]
知識伝達タスクKF(Knowledge Factorization)を提案する。
KFは、それをいくつかの要因ネットワークに分解することを目的としており、それぞれが専用のタスクのみを処理し、ソースネットワークから分解されたタスク固有の知識を維持する。
学習した表現と入力の相互情報を最適化してKFを実行するための情報理論的目的であるInfoMax-Bottleneck(IMB)を導入する。
論文 参考訳(メタデータ) (2022-07-04T09:56:49Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Multi-Source Transfer Learning for Deep Model-Based Reinforcement
Learning [0.6445605125467572]
強化学習における重要な課題は、エージェントが与えられたタスクをマスターするために必要な環境との相互作用の数を減らすことである。
伝達学習は、以前に学習したタスクから知識を再利用することでこの問題に対処することを提案する。
本研究の目的は,モジュール型マルチソーストランスファー学習技術を用いて,これらの課題に対処することである。
論文 参考訳(メタデータ) (2022-05-28T12:04:52Z) - Hierarchical Self-supervised Augmented Knowledge Distillation [1.9355744690301404]
本稿では,ネットワークを誘導し,本来の認識タスクと自己教師付き補助タスクの共分散を学習するための,新たな自己教師型拡張タスクを提案する。
正規分類能力を失うことなく、表現力を向上させるためのより豊かな知識として実証される。
CIFAR-100では平均2.56%,ImageNetでは0.77%向上した。
論文 参考訳(メタデータ) (2021-07-29T02:57:21Z) - Split-and-Bridge: Adaptable Class Incremental Learning within a Single
Neural Network [0.20305676256390928]
継続的学習は、ディープラーニングコミュニティで大きな問題である。
本稿では,Split-and-Bridgeと呼ばれる新しい連続学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-03T05:51:53Z) - Incremental Embedding Learning via Zero-Shot Translation [65.94349068508863]
現在の最先端のインクリメンタル学習手法は、従来の分類ネットワークにおける破滅的な忘れ方問題に取り組む。
ゼロショット変換クラス増分法(ZSTCI)と呼ばれる新しい組込みネットワークのクラス増分法を提案する。
さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。
論文 参考訳(メタデータ) (2020-12-31T08:21:37Z) - A Combinatorial Perspective on Transfer Learning [27.7848044115664]
モジュラーソリューションの学習によって、目に見えない分散データと潜在的に異なる分散データの両方を効果的に一般化することができるかを検討する。
タスクセグメンテーション,モジュール型学習,メモリベースアンサンブルの組み合わせによって,指数関数的に増加する多くの未確認タスクの一般化がもたらされる。
論文 参考訳(メタデータ) (2020-10-23T09:53:31Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。