論文の概要: Improved Knowledge Distillation via Adversarial Collaboration
- arxiv url: http://arxiv.org/abs/2111.14356v1
- Date: Mon, 29 Nov 2021 07:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:03:12.002964
- Title: Improved Knowledge Distillation via Adversarial Collaboration
- Title(参考訳): 逆境協調による知識蒸留の改善
- Authors: Zhiqiang Liu, Chengkai Huang, Yanxia Liu
- Abstract要約: 小学生モデルは、大きく訓練された教師モデルの知識を活用するために訓練される。
教師と生徒の能力格差のため、生徒の成績は教師のレベルに達することは困難である。
本稿では, 知識蒸留の性能を効果的に向上させる, ACKD (Adversarial Collaborative Knowledge Distillation) 法を提案する。
- 参考スコア(独自算出の注目度): 2.373824287636486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation has become an important approach to obtain a compact
yet effective model. To achieve this goal, a small student model is trained to
exploit the knowledge of a large well-trained teacher model. However, due to
the capacity gap between the teacher and the student, the student's performance
is hard to reach the level of the teacher. Regarding this issue, existing
methods propose to reduce the difficulty of the teacher's knowledge via a proxy
way. We argue that these proxy-based methods overlook the knowledge loss of the
teacher, which may cause the student to encounter capacity bottlenecks. In this
paper, we alleviate the capacity gap problem from a new perspective with the
purpose of averting knowledge loss. Instead of sacrificing part of the
teacher's knowledge, we propose to build a more powerful student via
adversarial collaborative learning. To this end, we further propose an
Adversarial Collaborative Knowledge Distillation (ACKD) method that effectively
improves the performance of knowledge distillation. Specifically, we construct
the student model with multiple auxiliary learners. Meanwhile, we devise an
adversarial collaborative module (ACM) that introduces attention mechanism and
adversarial learning to enhance the capacity of the student. Extensive
experiments on four classification tasks show the superiority of the proposed
ACKD.
- Abstract(参考訳): 知識蒸留はコンパクトで効果的なモデルを得るための重要なアプローチとなっている。
この目的を達成するために、小規模の学生モデルを訓練し、大規模に訓練された教師モデルの知識を活用する。
しかし,教師と生徒の能力格差のため,生徒の成績が教師のレベルに達することは困難である。
この問題に関して,既存の手法では,教師の知識の難易度をプロキシ方式で低減することを提案する。
これらのプロキシベースの手法は教師の知識喪失を見落としているため、生徒は能力のボトルネックに遭遇する可能性がある。
本稿では,知識喪失を回避することを目的として,新たな視点からキャパシティギャップ問題を緩和する。
教師の知識の一部を犠牲にする代わりに、対戦型協調学習を通じてより強力な学生を構築することを提案する。
この目的のために,本研究では,知識蒸留の性能を効果的に向上するadversarial Collaborative Knowledge Distillation (ACKD)法を提案する。
具体的には,複数の補助学習者を用いた学生モデルを構築する。
一方,学生の能力を高めるために,注意機構と対人学習を導入した対人協調モジュール(ACM)を考案した。
4つの分類タスクに関する大規模な実験は、提案したACKDの優位性を示している。
関連論文リスト
- Improving Knowledge Distillation with Teacher's Explanation [14.935696904019146]
本稿では,KED(Knowledge Explaining Distillation)フレームワークを紹介する。
KEDは、教師の予測だけでなく、教師の説明からも学べるようにしている。
様々なデータセットに対する実験により,KEDの学生はKDの学生と同じような複雑さを著しく上回る結果が得られた。
論文 参考訳(メタデータ) (2023-10-04T04:18:01Z) - Improving Knowledge Distillation via Transferring Learning Ability [15.62306809592042]
既存の知識蒸留法では、学生ネットワークがよく訓練された教師からのみ学習する、教師-学生のアプローチが一般的である。
このアプローチは、教師と生徒のネットワーク間の学習能力の固有の相違を見落とし、キャパシティギャップの問題を引き起こす。
この制限に対処するために,SLKDと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-24T09:06:06Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Student Network Learning via Evolutionary Knowledge Distillation [22.030934154498205]
教師知識の伝達効率を改善するための進化的知識蒸留手法を提案する。
進化的教師は、固定された予習教師の代わりにオンラインで学習され、学生ネットワーク学習を監督するために、中間的知識を継続的に伝達する。
このようにして、学生は豊富な内部知識を同時に獲得し、その成長過程を捉え、効果的なネットワーク学習につながる。
論文 参考訳(メタデータ) (2021-03-23T02:07:15Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。
本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。
知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文 参考訳(メタデータ) (2020-10-15T03:03:36Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。