Fugu-MT 論文翻訳(概要): Transferring Domain Knowledge with an Adviser in Continuous Tasks

論文の概要: Transferring Domain Knowledge with an Adviser in Continuous Tasks

arxiv url: http://arxiv.org/abs/2102.08029v1
Date: Tue, 16 Feb 2021 09:03:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-17 15:07:07.632350
Title: Transferring Domain Knowledge with an Adviser in Continuous Tasks
Title（参考訳）: 継続的タスクにおけるアドバイザーによるドメイン知識の伝達
Authors: Rukshan Wijesinghe, Kasun Vithanage, Dumindu Tissera, Alex Xavier, Subha Fernando and Jayathu Samarawickrama
Abstract要約: 強化学習技術は、学習プロセスにドメイン固有の知識を明示的に組み込むことができない。我々は、Deep Deterministic Policy Gradient (DDPG)アルゴリズムを適用し、アドバイザーを組み込む。 OpenAi Gymベンチマークタスクの私たちの実験は、アドバイザーによるドメイン知識の統合が学習を迅速化し、より良い最適化に向けたポリシーを改善することを示しています。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in Reinforcement Learning (RL) have surpassed human-level performance in many simulated environments. However, existing reinforcement learning techniques are incapable of explicitly incorporating already known domain-specific knowledge into the learning process. Therefore, the agents have to explore and learn the domain knowledge independently through a trial and error approach, which consumes both time and resources to make valid responses. Hence, we adapt the Deep Deterministic Policy Gradient (DDPG) algorithm to incorporate an adviser, which allows integrating domain knowledge in the form of pre-learned policies or pre-defined relationships to enhance the agent's learning process. Our experiments on OpenAi Gym benchmark tasks show that integrating domain knowledge through advisers expedites the learning and improves the policy towards better optima.
Abstract（参考訳）: 最近の強化学習(rl)の進歩は、多くのシミュレーション環境において人間レベルの性能を上回っている。しかし、既存の強化学習技術は、既に知られているドメイン固有の知識を学習プロセスに明示的に組み込むことができない。したがってエージェントは、試行錯誤のアプローチを通じてドメインの知識を独立して探究し、学習しなければならない。そこで我々は,Deep Deterministic Policy Gradient (DDPG)アルゴリズムを適応させ,エージェントの学習プロセスを強化するために,事前学習されたポリシーや事前定義された関係の形式でドメイン知識の統合を可能にするアドバイザーを組み込む。 OpenAi Gymベンチマークタスクの私たちの実験は、アドバイザーによるドメイン知識の統合が学習を迅速化し、より良い最適化に向けたポリシーを改善することを示しています。

関連論文リスト

Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Leveraging Multi-AI Agents for Cross-Domain Knowledge Discovery [0.0]
本研究では,マルチAIエージェントの展開によるドメイン間知識発見への新たなアプローチを提案する。本研究は,知識ギャップの特定とブリッジングにおいて,ドメイン固有マルチAIエージェントシステムの優れた能力を示すものである。
論文参考訳（メタデータ） (2024-04-12T14:50:41Z)
REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA) 我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-02-27T13:22:51Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Inapplicable Actions Learning for Knowledge Transfer in Reinforcement Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文参考訳（メタデータ） (2022-11-28T17:45:39Z)
Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文参考訳（メタデータ） (2022-01-27T19:51:09Z)
Multi-Agent Advisor Q-Learning [18.8931184962221]
マルチエージェント設定において、オンラインの準最適アドバイザからのアクションレコメンデーションを組み込むための原則化されたフレームワークを提供する。本稿では,Q-ラーニングに基づく新しいアルゴリズムとして,ADMIRAL-Decision Making (ADMIral-DM) とADMIAL- Advisor Evaluation (ADMIAL-AE) の2つを提案する。アルゴリズムを理論的に解析し、一般ゲームにおける学習に関する定点保証を提供する。
論文参考訳（メタデータ） (2021-10-26T00:21:15Z)
A Broad-persistent Advising Approach for Deep Interactive Reinforcement Learning in Robotic Environments [0.3683202928838613]
Deep Interactive Reinforcement Learning (DeepIRL)には、外部トレーナーやエキスパートからのインタラクティブなフィードバックが含まれており、学習プロセスのスピードアップのために、学習者がアクションを選択するのを支援する。本稿では,BPA(Broad-peristent Advising)を提案する。トレーナーは、現在の状態だけでなく、同様の状態に関するより一般的なアドバイスを与えるだけでなく、エージェントが学習プロセスのスピードアップを可能にする。
論文参考訳（メタデータ） (2021-10-15T10:56:00Z)
Decision Rule Elicitation for Domain Adaptation [93.02675868486932]
ヒトインザループ機械学習は、専門家からラベルを引き出すために人工知能(AI)で広く使用されています。この作業では、専門家が意思決定を説明する決定ルールを作成できるようにします。決定規則の適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。
論文参考訳（メタデータ） (2021-02-23T08:07:22Z)
KnowledgeCheckR: Intelligent Techniques for Counteracting Forgetting [52.623349754076024]
KnowledgeCheckRに統合された推奨アプローチの概要を提供します。その例としては,将来的に繰り返される学習内容の識別を支援するユーティリティベースのレコメンデーション,セッションベースのレコメンデーションを実装するための協調フィルタリングアプローチ,インテリジェントな質問応答を支援するコンテントベースのレコメンデーションなどがある。
論文参考訳（メタデータ） (2021-02-15T20:06:28Z)
KoGuN: Accelerating Deep Reinforcement Learning via Integrating Human Suboptimal Knowledge [40.343858932413376]
我々は,人間の事前最適知識と強化学習を組み合わせた新しい枠組みである知識誘導政策ネットワーク(KoGuN)を提案する。我々のフレームワークは、人間の知識を表すファジィルールコントローラと、微調整されたサブ最適事前知識を表す洗練されたモジュールで構成されている。
論文参考訳（メタデータ） (2020-02-18T07:58:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。