論文の概要: Student-Initiated Action Advising via Advice Novelty
- arxiv url: http://arxiv.org/abs/2010.00381v2
- Date: Sat, 27 Feb 2021 08:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:26:21.600489
- Title: Student-Initiated Action Advising via Advice Novelty
- Title(参考訳): アドバイスノベルティによる学生主導行動の指導
- Authors: Ercument Ilhan, Jeremy Gow and Diego Perez-Liebana
- Abstract要約: 状態の新規性や不確実性評価を生かした学生主導の手法が,有望な結果を得た。
本稿では、ランダムネットワーク蒸留(RND)を用いて、アドバイスの新規性を測定することによって、学生主導のアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.14323566945483493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action advising is a budget-constrained knowledge exchange mechanism between
teacher-student peers that can help tackle exploration and sample inefficiency
problems in deep reinforcement learning (RL). Most recently, student-initiated
techniques that utilise state novelty and uncertainty estimations have obtained
promising results. However, the approaches built on these estimations have some
potential weaknesses. First, they assume that the convergence of the student's
RL model implies less need for advice. This can be misleading in scenarios with
teacher absence early on where the student is likely to learn suboptimally by
itself; yet also ignore the teacher's assistance later. Secondly, the delays
between encountering states and having them to take effect in the RL model
updates in presence of the experience replay dynamics cause a feedback lag in
what the student actually needs advice for. We propose a student-initiated
algorithm that alleviates these by employing Random Network Distillation (RND)
to measure the novelty of a piece of advice. Furthermore, we perform RND
updates only for the advised states to ensure that the student's own learning
does not impair its ability to leverage the teacher. Experiments in GridWorld
and MinAtar show that our approach performs on par with the state-of-the-art
and demonstrates significant advantages in the scenarios where the existing
methods are prone to fail.
- Abstract(参考訳): アクションアドバイザリング(Action Advising)は、教師-学生間の予算制約付き知識交換機構であり、深層強化学習(RL)における探索と非効率問題のサンプリングを支援する。
最近では、状態の新規性と不確実性推定を利用する学生主導の手法が有望な結果を得た。
しかし、これらの推定に基づいて構築されたアプローチには潜在的な弱点がある。
まず、生徒のrlモデルの収束はアドバイスの必要性を少なくすることを意味すると仮定する。
これは、教師が教師を早期に欠席させるシナリオにおいて、学生が自分自身で最適に学習する可能性の低いシナリオで誤解を招く可能性がある。
第二に、経験リプレイダイナミクスの存在下で、遭遇した状態とrlモデル更新に作用する状態との間の遅延は、生徒が実際にアドバイスを必要としているものに対するフィードバック遅延を引き起こす。
本稿では、ランダムネットワーク蒸留(RND)を用いて、アドバイスの新規性を測定することによって、学生主導のアルゴリズムを提案する。
さらに,生徒自身の学習が教師の活用能力を損なわないことを保証するため,指導状態に対してのみrnd更新を行う。
gridworld と minatar の実験では、我々のアプローチは最先端の手法と同等の性能を発揮し、既存のメソッドが失敗し易いシナリオにおいて大きな利点を示しています。
関連論文リスト
- CANDERE-COACH: Reinforcement Learning from Noisy Feedback [12.232688822099325]
CANDERE-COACHアルゴリズムは、非最適教師によるノイズフィードバックから学習することができる。
本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
論文 参考訳(メタデータ) (2024-09-23T20:14:12Z) - Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。
これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文 参考訳(メタデータ) (2023-06-07T13:41:55Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Explainable Action Advising for Multi-Agent Reinforcement Learning [32.49380192781649]
アクションアドバイザリング(Action Advising)とは、教師-学生パラダイムに基づく強化学習のための知識伝達技術である。
本稿では,教師がアクションアドバイスと関連する説明を提示し,アクションが選択された理由を説明するための説明可能なアクションアドバイスを紹介する。
これにより、学生は学んだことを自己認識し、一般化アドバイスを可能にし、サンプル効率と学習性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-15T04:15:03Z) - Methodical Advice Collection and Reuse in Deep Reinforcement Learning [12.840744403432547]
この研究は、学生がいつアドバイスを求めるべきか、学生がより少ないアドバイスを求めるために教師をモデル化できるかどうかについて、不確実性をうまく活用する方法を検討する。
実験結果から,2つの不確実性を用いてアドバイス収集と再利用を行うことにより,アタリゲーム間の学習性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-14T22:24:55Z) - Distribution Matching for Machine Teaching [64.39292542263286]
機械学習の逆問題である機械学習は、学習者の目標仮説に向けて学習者を操ることを目的としている。
機械教育に関するこれまでの研究は、それらの最良の指導例を見つけるための教育のリスクとコストのバランスに重点を置いていた。
本稿では,分布マッチングに基づく機械教育戦略を提案する。
論文 参考訳(メタデータ) (2021-05-06T09:32:57Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - Discovering an Aid Policy to Minimize Student Evasion Using Offline
Reinforcement Learning [2.2344764434954256]
オフライン強化学習を用いた学生の援助行動選択のための意思決定支援手法を提案する。
実学生のログデータを用いた実験では,非政治評価により,ログ政策の約1.0倍から1.5倍の累積報酬を得られることが判明した。
論文 参考訳(メタデータ) (2021-04-20T21:45:19Z) - Action Advising with Advice Imitation in Deep Reinforcement Learning [0.5185131234265025]
行動助言は、教師と学生のパラダイムに基づいて構築されたピアツーピアの知識交換技術です。
本稿では,学生エージェントが以前取得したアドバイスを模倣して,調査方針で直接再利用する手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T04:24:04Z) - Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。
本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文 参考訳(メタデータ) (2020-10-15T03:03:36Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。