論文の概要: Methodical Advice Collection and Reuse in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.07254v1
- Date: Thu, 14 Apr 2022 22:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 14:57:50.252486
- Title: Methodical Advice Collection and Reuse in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における方法論的アドバイス収集と再利用
- Authors: Sahir, Erc\"ument \.Ilhan, Srijita Das, Matthew E. Taylor
- Abstract要約: この研究は、学生がいつアドバイスを求めるべきか、学生がより少ないアドバイスを求めるために教師をモデル化できるかどうかについて、不確実性をうまく活用する方法を検討する。
実験結果から,2つの不確実性を用いてアドバイス収集と再利用を行うことにより,アタリゲーム間の学習性能が向上する可能性が示唆された。
- 参考スコア(独自算出の注目度): 12.840744403432547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has shown great success in solving many
challenging tasks via use of deep neural networks. Although using deep learning
for RL brings immense representational power, it also causes a well-known
sample-inefficiency problem. This means that the algorithms are data-hungry and
require millions of training samples to converge to an adequate policy. One way
to combat this issue is to use action advising in a teacher-student framework,
where a knowledgeable teacher provides action advice to help the student. This
work considers how to better leverage uncertainties about when a student should
ask for advice and if the student can model the teacher to ask for less advice.
The student could decide to ask for advice when it is uncertain or when both it
and its model of the teacher are uncertain. In addition to this investigation,
this paper introduces a new method to compute uncertainty for a deep RL agent
using a secondary neural network. Our empirical results show that using dual
uncertainties to drive advice collection and reuse may improve learning
performance across several Atari games.
- Abstract(参考訳): 強化学習(rl)は、ディープニューラルネットワークを使用して多くの課題を解決することに成功している。
rlにディープラーニングを使うことは、膨大な表現力をもたらすが、有名なサンプル非効率問題を引き起こす。
これは、アルゴリズムがデータ格納型であり、適切なポリシーに収束するために数百万のトレーニングサンプルを必要とすることを意味する。
この問題に対処する1つの方法は、知識のある教師が生徒を助けるためにアクションアドバイスを提供する教師学生フレームワークでアクションアドバイスを使用することである。
本研究は,生徒がいつアドバイスを求めるべきか,生徒が教師をモデル化してより少ないアドバイスを求めるべきかについて,不確実性をよりうまく活用する方法について考察する。
生徒は、不確かであるときや、その教師のモデルが不確かであるとき、アドバイスを求めることができる。
本稿では,本研究に加えて,2次ニューラルネットワークを用いた深層rlエージェントの不確実性を計算する新しい手法を提案する。
実験結果から,2つの不確実性を用いてアドバイス収集と再利用を行うことにより,アタリゲーム間の学習性能が向上する可能性が示唆された。
関連論文リスト
- CANDERE-COACH: Reinforcement Learning from Noisy Feedback [12.232688822099325]
CANDERE-COACHアルゴリズムは、非最適教師によるノイズフィードバックから学習することができる。
本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
論文 参考訳(メタデータ) (2024-09-23T20:14:12Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - UNIKD: UNcertainty-filtered Incremental Knowledge Distillation for Neural Implicit Representation [48.49860868061573]
最近の神経暗黙表現(NIR)は、3次元再構成と新しいビュー合成のタスクにおいて大きな成功を収めている。
それらは、異なるカメラビューからのシーンのイメージを、一度のトレーニングで利用できるようにする必要がある。
これは特に大規模なシーンと限られたデータストレージを持つシナリオでは高価である。
我々は、破滅的な問題を緩和するために、学生-教師の枠組みを設計する。
論文 参考訳(メタデータ) (2022-12-21T11:43:20Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。
本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文 参考訳(メタデータ) (2020-10-15T03:03:36Z) - Student-Initiated Action Advising via Advice Novelty [0.14323566945483493]
状態の新規性や不確実性評価を生かした学生主導の手法が,有望な結果を得た。
本稿では、ランダムネットワーク蒸留(RND)を用いて、アドバイスの新規性を測定することによって、学生主導のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-01T13:20:28Z) - Densely Guided Knowledge Distillation using Multiple Teacher Assistants [5.169724825219126]
モデルサイズを徐々に小さくする複数の教師アシスタントを用いた知識蒸留法を提案する。
また,ミニバッチ毎に,教師や教師のアシスタントがランダムにドロップされるような授業も設計する。
これは、学生ネットワークの教育効率を向上させるために、レギュラーライザとして機能する。
論文 参考訳(メタデータ) (2020-09-18T13:12:52Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。