Fugu-MT 論文翻訳(概要): Augmented Q Imitation Learning (AQIL)

論文の概要: Augmented Q Imitation Learning (AQIL)

arxiv url: http://arxiv.org/abs/2004.00993v2
Date: Sun, 5 Apr 2020 17:16:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-18 00:11:45.506570
Title: Augmented Q Imitation Learning (AQIL)
Title（参考訳）: AQIL(Augmented Q Imitation Learning)
Authors: Xiao Lei Zhang, Anish Agarwal
Abstract要約: 模倣学習では、機械はエキスパートシステムの振舞いを模倣して学習するが、強化学習では直接的な環境フィードバックを通じて学習する。本稿では,強化学習の収束を加速する手法であるAugmented Q-Imitation-Learningを提案する。
参考スコア（独自算出の注目度）: 20.909770125018564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The study of unsupervised learning can be generally divided into two categories: imitation learning and reinforcement learning. In imitation learning the machine learns by mimicking the behavior of an expert system whereas in reinforcement learning the machine learns via direct environment feedback. Traditional deep reinforcement learning takes a significant time before the machine starts to converge to an optimal policy. This paper proposes Augmented Q-Imitation-Learning, a method by which deep reinforcement learning convergence can be accelerated by applying Q-imitation-learning as the initial training process in traditional Deep Q-learning.
Abstract（参考訳）: 教師なし学習の研究は一般的に模倣学習と強化学習の2つのカテゴリに分けられる。模倣学習では、機械はエキスパートシステムの振る舞いを模倣して学習し、強化学習では直接環境フィードバックによって学習する。従来の深層強化学習は、マシンが最適なポリシーに収束する前にかなりの時間がかかる。本稿では,Q-imitation-learning を従来の深部Q-learning の初期訓練プロセスとして適用することにより,深部強化学習の収束を加速する手法である Augmented Q-Imitation-Learning を提案する。

関連論文リスト

How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training [92.88889953768455]
大きな言語モデル(LLM)は、どのようにして新しい知識を内部化するかを理解する上で、重大なギャップに直面します。知識記憶と処理を容易にする計算サブグラフを同定する。
論文参考訳（メタデータ） (2025-02-16T16:55:43Z)
A Coordination-based Approach for Focused Learning in Knowledge-Based Systems [2.960110343737342]
読解・機械読解システムによる学習の最近の進歩は、知識ベースシステムによる新たな事実の学習能力を大幅に向上させてきた。本稿では,これらの知識に基づくシステムに対して,Q/A性能の最大化につながる一連の学習要求を選択する問題について論じる。これらの学習システムに最適な事実群を選択することは協調ゲームと類似していることを示し、この問題を解決するために強化学習を用いる。
論文参考訳（メタデータ） (2025-01-15T23:45:02Z)
Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
A Unified Framework for Continual Learning and Machine Unlearning [9.538733681436836]
継続的学習と機械学習は機械学習において重要な課題であり、通常は別々に対処される。制御された知識蒸留を活用することによって,両課題に共同で取り組む新しい枠組みを導入する。我々のアプローチは、最小限の忘れ込みと効果的な標的未学習で効率的な学習を可能にする。
論文参考訳（メタデータ） (2024-08-21T06:49:59Z)
Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文参考訳（メタデータ） (2024-07-01T20:58:01Z)
Towards Automated Knowledge Integration From Human-Interpretable Representations [55.2480439325792]
我々は,情報メタ学習の原理を理論的に導入・動機付けし,自動的かつ制御可能な帰納バイアス選択を可能にする。データ効率と一般化を改善するための情報メタラーニングのメリットと限界を実証的に示す。
論文参考訳（メタデータ） (2024-02-25T15:08:37Z)
FRAC-Q-Learning: A Reinforcement Learning with Boredom Avoidance Processes for Social Robots [0.0]
本稿では,ソーシャルロボットであるFRAC-Q学習に特化した新しい強化学習手法を提案する。提案アルゴリズムは,プロセスのランダム化と分類に加えて,忘れるプロセスから構成される。 FRAC-Qラーニングは,従来のQラーニングに比べて関心度が高い傾向を示し,利用者のブーイングが著しく困難であった。
論文参考訳（メタデータ） (2023-11-26T15:11:17Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文参考訳（メタデータ） (2022-01-27T19:51:09Z)
Active Reinforcement Learning -- A Roadmap Towards Curious Classifier Systems for Self-Adaptation [0.456877715768796]
知的システムにおける「能動的強化学習」についての研究課題を策定することを目的とする。従来のアプローチでは、学習問題を分離し、さまざまな分野の機械学習からテクニックを分離的に利用している。
論文参考訳（メタデータ） (2022-01-11T13:50:26Z)
Rethinking Supervised Learning and Reinforcement Learning in Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文参考訳（メタデータ） (2020-09-21T12:04:18Z)
Transfer Learning in Deep Reinforcement Learning: A Survey [64.36174156782333]
強化学習は、シーケンシャルな意思決定問題を解決するための学習パラダイムである。近年、ディープニューラルネットワークの急速な発展により、強化学習の顕著な進歩が見られた。転校学習は強化学習が直面する様々な課題に対処するために生まれました
論文参考訳（メタデータ） (2020-09-16T18:38:54Z)
Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。 ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文参考訳（メタデータ） (2020-07-23T17:59:57Z)
A Novel Update Mechanism for Q-Networks Based On Extreme Learning Machines [0.6445605125467573]
EQLM(Extreme Q-Learning Machine)は、勾配に基づく更新と同じ方法で強化学習問題に適用される。我々はその性能を、カートポールタスクにおける典型的なQ-Networkと比較する。 EQLMはQ-Networkと同様の長期学習性能を持つことを示す。
論文参考訳（メタデータ） (2020-06-04T16:16:13Z)
A new Potential-Based Reward Shaping for Reinforcement Learning Agent [0.0]
提案手法はエピソードの累積報酬から知識を抽出する。その結果,シングルタスクとマルチタスク強化学習エージェントの学習プロセスの改善が示唆された。
論文参考訳（メタデータ） (2019-02-17T10:34:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。