論文の概要: Dual Policy Distillation
- arxiv url: http://arxiv.org/abs/2006.04061v1
- Date: Sun, 7 Jun 2020 06:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 07:19:39.218757
- Title: Dual Policy Distillation
- Title(参考訳): デュアルポリシー蒸留
- Authors: Kwei-Herng Lai, Daochen Zha, Yuening Li, Xia Hu
- Abstract要約: 教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
- 参考スコア(独自算出の注目度): 58.43610940026261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy distillation, which transfers a teacher policy to a student policy has
achieved great success in challenging tasks of deep reinforcement learning.
This teacher-student framework requires a well-trained teacher model which is
computationally expensive. Moreover, the performance of the student model could
be limited by the teacher model if the teacher model is not optimal. In the
light of collaborative learning, we study the feasibility of involving joint
intellectual efforts from diverse perspectives of student models. In this work,
we introduce dual policy distillation(DPD), a student-student framework in
which two learners operate on the same environment to explore different
perspectives of the environment and extract knowledge from each other to
enhance their learning. The key challenge in developing this dual learning
framework is to identify the beneficial knowledge from the peer learner for
contemporary learning-based reinforcement learning algorithms, since it is
unclear whether the knowledge distilled from an imperfect and noisy peer
learner would be helpful. To address the challenge, we theoretically justify
that distilling knowledge from a peer learner will lead to policy improvement
and propose a disadvantageous distillation strategy based on the theoretical
results. The conducted experiments on several continuous control tasks show
that the proposed framework achieves superior performance with a learning-based
agent and function approximation without the use of expensive teacher models.
- Abstract(参考訳): 教員政策を学生政策に移行した政策蒸留は、深層強化学習の課題において大きな成功を収めた。
この教師教育の枠組みは、計算コストが高い訓練された教師モデルを必要とする。
さらに,教師モデルが最適でない場合,生徒モデルの性能は教師モデルによって制限される可能性がある。
協調学習の観点から,学生モデルの多様な視点から,共同的知的努力の実施の可能性を検討する。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索し,相互に知識を抽出し,学習を促進するための2つの政策蒸留(DPD)を提案する。
このデュアルラーニングフレームワークを開発する上で重要な課題は、不完全でノイズの多いピアラーニング者から抽出した知識が役に立つかどうかが不明であるため、同時代の学習に基づく強化学習アルゴリズムにおいて、ピアラーニング者から有益な知識を特定することである。
この課題に対処するために,ピア学習者からの知識の蒸留が政策改善につながることを理論的に正当化し,理論的な結果に基づく不利な蒸留戦略を提案する。
提案手法は,高額な教師モデルを用いずに,学習エージェントと関数近似を用いて,優れた性能が得られることを示す。
関連論文リスト
- Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Automated Graph Self-supervised Learning via Multi-teacher Knowledge
Distillation [43.903582264697974]
本稿では,各ノードのインスタンスレベルの自己教師型学習戦略を自動的に,適応的に,動的に学習する方法について検討する。
自動グラフ自己監視学習(AGSSL)のための新しい多教師知識蒸留フレームワークを提案する。
8つのデータセットの実験では、AGSSLは複数のプレテキストタスクの恩恵を受けることができ、対応する個々のタスクを上回っている。
論文 参考訳(メタデータ) (2022-10-05T08:39:13Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Improved Knowledge Distillation via Adversarial Collaboration [2.373824287636486]
小学生モデルは、大きく訓練された教師モデルの知識を活用するために訓練される。
教師と生徒の能力格差のため、生徒の成績は教師のレベルに達することは困難である。
本稿では, 知識蒸留の性能を効果的に向上させる, ACKD (Adversarial Collaborative Knowledge Distillation) 法を提案する。
論文 参考訳(メタデータ) (2021-11-29T07:20:46Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Adaptive Multi-Teacher Multi-level Knowledge Distillation [11.722728148523366]
適応型多段階知識蒸留学習フレームワーク(AMTML-KD)を提案する。
i)各教師と潜在表現を関連付けて、インスタンスレベルの教師の重要性の重みを適応的に学習する。
そのため、学生モデルはAMMTML-KDを介して複数の教師から多レベルの知識を学ぶことができます。
論文 参考訳(メタデータ) (2021-03-06T08:18:16Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Active Imitation Learning from Multiple Non-Deterministic Teachers:
Formulation, Challenges, and Algorithms [3.6702509833426613]
我々は,対話コストを最小に抑えつつ,複数の非決定論的教師を模倣する学習の問題を定式化する。
まず,教師の方針の連続表現を学習することで,そのような分布を効率的にモデル化し,推定する一般的な枠組みを提案する。
次に,学習者と教師のインタラクションコストを削減するための能動的学習アルゴリズムである,能動的パフォーマンスに基づく模倣学習(APIL)を開発した。
論文 参考訳(メタデータ) (2020-06-14T03:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。