論文の概要: Knowledge Transfer in Deep Reinforcement Learning via an RL-Specific GAN-Based Correspondence Function
- arxiv url: http://arxiv.org/abs/2209.06604v2
- Date: Mon, 11 Nov 2024 17:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:40.355325
- Title: Knowledge Transfer in Deep Reinforcement Learning via an RL-Specific GAN-Based Correspondence Function
- Title(参考訳): RL特化GAN対応関数を用いた深層強化学習における知識伝達
- Authors: Marko Ruman, Tatiana V. Guy,
- Abstract要約: 本稿では,強化学習に特化したサイクル生成適応型ネットワークを改良する新しいアプローチを紹介する。
本手法は, 同一タスクにおける100%の知識伝達と, 100%の知識伝達, 30%のトレーニング時間短縮を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Deep reinforcement learning has demonstrated superhuman performance in complex decision-making tasks, but it struggles with generalization and knowledge reuse - key aspects of true intelligence. This article introduces a novel approach that modifies Cycle Generative Adversarial Networks specifically for reinforcement learning, enabling effective one-to-one knowledge transfer between two tasks. Our method enhances the loss function with two new components: model loss, which captures dynamic relationships between source and target tasks, and Q-loss, which identifies states significantly influencing the target decision policy. Tested on the 2-D Atari game Pong, our method achieved 100% knowledge transfer in identical tasks and either 100% knowledge transfer or a 30% reduction in training time for a rotated task, depending on the network architecture. In contrast, using standard Generative Adversarial Networks or Cycle Generative Adversarial Networks led to worse performance than training from scratch in the majority of cases. The results demonstrate that the proposed method ensured enhanced knowledge generalization in deep reinforcement learning.
- Abstract(参考訳): 深層強化学習は、複雑な意思決定タスクにおいて超人的なパフォーマンスを示すが、それは一般化と知識の再利用(真の知性の重要な側面)に苦慮している。
本稿では、強化学習に特化したサイクル生成適応型ネットワークを改良し、2つのタスク間で効果的な1対1の知識伝達を可能にする新しいアプローチを提案する。
提案手法は,対象タスクとソースタスクの動的関係をキャプチャするモデル損失と,対象決定ポリシーに大きく影響を及ぼす状態を特定するQ損失という,2つの新しいコンポーネントで損失関数を強化する。
2次元アタリゲームPongでテストした結果、ネットワークアーキテクチャによって、同一タスクにおける100%の知識伝達、100%の知識伝達、30%の学習時間の短縮が達成された。
対照的に、標準的なジェネレーティブ・アドバイサル・ネットワークやサイクル・ジェネレーティブ・アドバイサル・ネットワークを使用することで、ほとんどのケースでスクラッチからトレーニングするよりもパフォーマンスが悪くなりました。
その結果,提案手法は深層強化学習における知識の一般化を確実にすることを示した。
関連論文リスト
- Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z) - Renaissance Robot: Optimal Transport Policy Fusion for Learning Diverse
Skills [28.39150937658635]
最適輸送理論を用いた政策融合のためのポストホック手法を提案する。
これにより、新しいタスクを学習するためのニューラルネットワークポリシの初期化が改善される。
以上の結果から,専門知識を「ルネッサンスエージェント」に統合し,新たなスキルの学習を迅速に行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-07-03T08:15:41Z) - Multi-Source Transfer Learning for Deep Model-Based Reinforcement
Learning [0.6445605125467572]
強化学習における重要な課題は、エージェントが与えられたタスクをマスターするために必要な環境との相互作用の数を減らすことである。
伝達学習は、以前に学習したタスクから知識を再利用することでこの問題に対処することを提案する。
本研究の目的は,モジュール型マルチソーストランスファー学習技術を用いて,これらの課題に対処することである。
論文 参考訳(メタデータ) (2022-05-28T12:04:52Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Transferability in Deep Learning: A Survey [80.67296873915176]
知識を習得し再利用する能力は、ディープラーニングにおける伝達可能性として知られている。
本研究は,深層学習における異なる孤立領域と伝達可能性との関係を関連付けるための調査である。
我々はベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニング手法の公平な評価を可能にする。
論文 参考訳(メタデータ) (2022-01-15T15:03:17Z) - Fractional Transfer Learning for Deep Model-Based Reinforcement Learning [0.966840768820136]
強化学習(Reinforcement Learning, RL)は、RLエージェントが複雑なタスクを実行することを学ぶために大量のデータを必要とすることで知られている。
モデルベースRLの最近の進歩により、エージェントはずっとデータ効率が良い。
簡単な代替手法として、分数変換学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T12:44:42Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Learning Transferable Concepts in Deep Reinforcement Learning [0.7161783472741748]
感覚入力の離散的な表現を学習することで、複数のタスクに共通するハイレベルな抽象化が得られることを示す。
特に,情報理論のアプローチに従って,自己超越によってそのような表現を学習することは可能であることを示す。
本手法は, 未知タスクと未知タスクの両方において, サンプル効率を高めるための, 機関車および最適制御タスクの概念を学習することができる。
論文 参考訳(メタデータ) (2020-05-16T04:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。