論文の概要: KoGuN: Accelerating Deep Reinforcement Learning via Integrating Human
Suboptimal Knowledge
- arxiv url: http://arxiv.org/abs/2002.07418v2
- Date: Thu, 21 May 2020 07:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 20:10:20.156581
- Title: KoGuN: Accelerating Deep Reinforcement Learning via Integrating Human
Suboptimal Knowledge
- Title(参考訳): KoGuN:人間の準最適知識の統合による深層強化学習の促進
- Authors: Peng Zhang, Jianye Hao, Weixun Wang, Hongyao Tang, Yi Ma, Yihai Duan,
Yan Zheng
- Abstract要約: 我々は,人間の事前最適知識と強化学習を組み合わせた新しい枠組みである知識誘導政策ネットワーク(KoGuN)を提案する。
我々のフレームワークは、人間の知識を表すファジィルールコントローラと、微調整されたサブ最適事前知識を表す洗練されたモジュールで構成されている。
- 参考スコア(独自算出の注目度): 40.343858932413376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning agents usually learn from scratch, which requires a
large number of interactions with the environment. This is quite different from
the learning process of human. When faced with a new task, human naturally have
the common sense and use the prior knowledge to derive an initial policy and
guide the learning process afterwards. Although the prior knowledge may be not
fully applicable to the new task, the learning process is significantly sped up
since the initial policy ensures a quick-start of learning and intermediate
guidance allows to avoid unnecessary exploration. Taking this inspiration, we
propose knowledge guided policy network (KoGuN), a novel framework that
combines human prior suboptimal knowledge with reinforcement learning. Our
framework consists of a fuzzy rule controller to represent human knowledge and
a refine module to fine-tune suboptimal prior knowledge. The proposed framework
is end-to-end and can be combined with existing policy-based reinforcement
learning algorithm. We conduct experiments on both discrete and continuous
control tasks. The empirical results show that our approach, which combines
human suboptimal knowledge and RL, achieves significant improvement on learning
efficiency of flat RL algorithms, even with very low-performance human prior
knowledge.
- Abstract(参考訳): 強化学習エージェントは、通常、スクラッチから学習する。
これは人間の学習過程とは全く異なる。
新しいタスクに直面したとき、人間は自然に常識を持ち、事前の知識を使って初期方針を導き、その後に学習プロセスを導く。
従来の知識が新しいタスクに完全には適用されないかもしれないが、初期方針が学習のクイックスタートを保証し、中間ガイダンスが不要な探索を回避できるため、学習プロセスは大幅に向上する。
このインスピレーションを生かした知識誘導型政策ネットワーク(KoGuN)は,人間の事前最適知識と強化学習を組み合わせた新しいフレームワークである。
私たちのフレームワークは、人間の知識を表現するファジィルールコントローラと、最適化された事前知識を微調整する精製モジュールで構成されています。
提案するフレームワークはエンドツーエンドであり,既存のポリシベースの強化学習アルゴリズムと組み合わせることができる。
離散制御と連続制御の両方で実験を行う。
実験の結果,人間の準最適知識とRLを組み合わせた手法は,低性能な人間の事前知識であっても,平坦なRLアルゴリズムの学習効率を大幅に向上することが示された。
関連論文リスト
- KnowPC: Knowledge-Driven Programmatic Reinforcement Learning for Zero-shot Coordination [11.203441390685201]
ゼロショットコーディネート(ZSC)は、AI分野における大きな課題である。
本稿では,ZSCのための知識駆動型プログラム強化学習について紹介する。
重要な課題は、膨大なプログラム検索スペースであり、高性能なプログラムを効率的に見つけることは困難である。
論文 参考訳(メタデータ) (2024-08-08T09:43:54Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Learning state correspondence of reinforcement learning tasks for
knowledge transfer [0.0]
知識の一般化と再利用は、真にインテリジェントなエージェントを作成するための基本的な要件である。
本研究では,RLタスクに適した生成逆ネットワークモデルに基づく1対1の伝達学習の汎用的手法を提案する。
論文 参考訳(メタデータ) (2022-09-14T12:42:59Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Transferability in Deep Learning: A Survey [80.67296873915176]
知識を習得し再利用する能力は、ディープラーニングにおける伝達可能性として知られている。
本研究は,深層学習における異なる孤立領域と伝達可能性との関係を関連付けるための調査である。
我々はベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニング手法の公平な評価を可能にする。
論文 参考訳(メタデータ) (2022-01-15T15:03:17Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Transferring Domain Knowledge with an Adviser in Continuous Tasks [0.0]
強化学習技術は、学習プロセスにドメイン固有の知識を明示的に組み込むことができない。
我々は、Deep Deterministic Policy Gradient (DDPG)アルゴリズムを適用し、アドバイザーを組み込む。
OpenAi Gymベンチマークタスクの私たちの実験は、アドバイザーによるドメイン知識の統合が学習を迅速化し、より良い最適化に向けたポリシーを改善することを示しています。
論文 参考訳(メタデータ) (2021-02-16T09:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。