論文の概要: Transferring Domain Knowledge with an Adviser in Continuous Tasks
- arxiv url: http://arxiv.org/abs/2102.08029v1
- Date: Tue, 16 Feb 2021 09:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:07:07.632350
- Title: Transferring Domain Knowledge with an Adviser in Continuous Tasks
- Title(参考訳): 継続的タスクにおけるアドバイザーによるドメイン知識の伝達
- Authors: Rukshan Wijesinghe, Kasun Vithanage, Dumindu Tissera, Alex Xavier,
Subha Fernando and Jayathu Samarawickrama
- Abstract要約: 強化学習技術は、学習プロセスにドメイン固有の知識を明示的に組み込むことができない。
我々は、Deep Deterministic Policy Gradient (DDPG)アルゴリズムを適用し、アドバイザーを組み込む。
OpenAi Gymベンチマークタスクの私たちの実験は、アドバイザーによるドメイン知識の統合が学習を迅速化し、より良い最適化に向けたポリシーを改善することを示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Reinforcement Learning (RL) have surpassed human-level
performance in many simulated environments. However, existing reinforcement
learning techniques are incapable of explicitly incorporating already known
domain-specific knowledge into the learning process. Therefore, the agents have
to explore and learn the domain knowledge independently through a trial and
error approach, which consumes both time and resources to make valid responses.
Hence, we adapt the Deep Deterministic Policy Gradient (DDPG) algorithm to
incorporate an adviser, which allows integrating domain knowledge in the form
of pre-learned policies or pre-defined relationships to enhance the agent's
learning process. Our experiments on OpenAi Gym benchmark tasks show that
integrating domain knowledge through advisers expedites the learning and
improves the policy towards better optima.
- Abstract(参考訳): 最近の強化学習(rl)の進歩は、多くのシミュレーション環境において人間レベルの性能を上回っている。
しかし、既存の強化学習技術は、既に知られているドメイン固有の知識を学習プロセスに明示的に組み込むことができない。
したがってエージェントは、試行錯誤のアプローチを通じてドメインの知識を独立して探究し、学習しなければならない。
そこで我々は,Deep Deterministic Policy Gradient (DDPG)アルゴリズムを適応させ,エージェントの学習プロセスを強化するために,事前学習されたポリシーや事前定義された関係の形式でドメイン知識の統合を可能にするアドバイザーを組み込む。
OpenAi Gymベンチマークタスクの私たちの実験は、アドバイザーによるドメイン知識の統合が学習を迅速化し、より良い最適化に向けたポリシーを改善することを示しています。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Multi-Agent Advisor Q-Learning [18.8931184962221]
マルチエージェント設定において、オンラインの準最適アドバイザからのアクションレコメンデーションを組み込むための原則化されたフレームワークを提供する。
本稿では,Q-ラーニングに基づく新しいアルゴリズムとして,ADMIRAL-Decision Making (ADMIral-DM) とADMIAL- Advisor Evaluation (ADMIAL-AE) の2つを提案する。
アルゴリズムを理論的に解析し、一般ゲームにおける学習に関する定点保証を提供する。
論文 参考訳(メタデータ) (2021-10-26T00:21:15Z) - A Broad-persistent Advising Approach for Deep Interactive Reinforcement
Learning in Robotic Environments [0.3683202928838613]
Deep Interactive Reinforcement Learning (DeepIRL)には、外部トレーナーやエキスパートからのインタラクティブなフィードバックが含まれており、学習プロセスのスピードアップのために、学習者がアクションを選択するのを支援する。
本稿では,BPA(Broad-peristent Advising)を提案する。
トレーナーは、現在の状態だけでなく、同様の状態に関するより一般的なアドバイスを与えるだけでなく、エージェントが学習プロセスのスピードアップを可能にする。
論文 参考訳(メタデータ) (2021-10-15T10:56:00Z) - Lifelong Person Re-Identification via Adaptive Knowledge Accumulation [18.4671957106297]
LReID(Lifelong person re-identification)は、複数のドメインにわたって継続的に学習することができる。
知識表現と知識操作という2つの重要な能力を備えた適応的知識蓄積フレームワークを設計する。
本手法は見かけのドメインの破滅的な忘れることを軽減し,未知のドメインに一般化する能力を示す。
論文 参考訳(メタデータ) (2021-03-23T11:30:38Z) - Decision Rule Elicitation for Domain Adaptation [93.02675868486932]
ヒトインザループ機械学習は、専門家からラベルを引き出すために人工知能(AI)で広く使用されています。
この作業では、専門家が意思決定を説明する決定ルールを作成できるようにします。
決定規則の適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。
論文 参考訳(メタデータ) (2021-02-23T08:07:22Z) - KnowledgeCheckR: Intelligent Techniques for Counteracting Forgetting [52.623349754076024]
KnowledgeCheckRに統合された推奨アプローチの概要を提供します。
その例としては,将来的に繰り返される学習内容の識別を支援するユーティリティベースのレコメンデーション,セッションベースのレコメンデーションを実装するための協調フィルタリングアプローチ,インテリジェントな質問応答を支援するコンテントベースのレコメンデーションなどがある。
論文 参考訳(メタデータ) (2021-02-15T20:06:28Z) - Knowledge-guided Deep Reinforcement Learning for Interactive
Recommendation [49.32287384774351]
インタラクティブレコメンデーションは、アイテムとユーザ間の動的インタラクションから学び、応答性と精度を達成することを目的としている。
本稿では,知識指導型深層強化学習を提案する。
論文 参考訳(メタデータ) (2020-04-17T05:26:47Z) - KoGuN: Accelerating Deep Reinforcement Learning via Integrating Human
Suboptimal Knowledge [40.343858932413376]
我々は,人間の事前最適知識と強化学習を組み合わせた新しい枠組みである知識誘導政策ネットワーク(KoGuN)を提案する。
我々のフレームワークは、人間の知識を表すファジィルールコントローラと、微調整されたサブ最適事前知識を表す洗練されたモジュールで構成されている。
論文 参考訳(メタデータ) (2020-02-18T07:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。