論文の概要: What Knowledge Gets Distilled in Knowledge Distillation?
- arxiv url: http://arxiv.org/abs/2205.16004v3
- Date: Mon, 6 Nov 2023 17:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 01:53:51.811096
- Title: What Knowledge Gets Distilled in Knowledge Distillation?
- Title(参考訳): 知識蒸留における知識の希薄化
- Authors: Utkarsh Ojha, Yuheng Li, Anirudh Sundara Rajan, Yingyu Liang, Yong Jae
Lee
- Abstract要約: 知識蒸留は,教師ネットワークから学生ネットワークに有用な情報を伝達することを目的としている。
様々な改善があったにもかかわらず、コミュニティのプロセスに対する根本的な理解には大きなギャップがあるようだ。
既存の手法はタスク性能の向上を超えて間接的にこれらの特性を蒸留できることを示す。
- 参考スコア(独自算出の注目度): 42.64154725887817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation aims to transfer useful information from a teacher
network to a student network, with the primary goal of improving the student's
performance for the task at hand. Over the years, there has a been a deluge of
novel techniques and use cases of knowledge distillation. Yet, despite the
various improvements, there seems to be a glaring gap in the community's
fundamental understanding of the process. Specifically, what is the knowledge
that gets distilled in knowledge distillation? In other words, in what ways
does the student become similar to the teacher? Does it start to localize
objects in the same way? Does it get fooled by the same adversarial samples?
Does its data invariance properties become similar? Our work presents a
comprehensive study to try to answer these questions. We show that existing
methods can indeed indirectly distill these properties beyond improving task
performance. We further study why knowledge distillation might work this way,
and show that our findings have practical implications as well.
- Abstract(参考訳): 知識蒸留は教師ネットワークから学生ネットワークへ有用な情報を伝達することを目的としており、目前の課題に対する生徒のパフォーマンス向上を主な目的としている。
長年にわたり、新しい技術や知識蒸留のユースケースが発達してきた。
しかし、様々な改善があったにもかかわらず、コミュニティのプロセスに対する根本的な理解には大きなギャップがあるようだ。
具体的には、知識蒸留で蒸留される知識は何か。
言い換えれば、学生はどんなふうに教師に似ていますか。
同じ方法でオブジェクトをローカライズするのでしょうか?
同じ敵のサンプルに騙されるのか?
データ不変性は似ているか?
我々の研究はこれらの質問に答えるために包括的な研究を行っている。
既存の手法はタスク性能の向上を超えて間接的にこれらの特性を蒸留できることを示す。
さらに,なぜ知識蒸留がこのように機能するのかを考察し,本研究の成果にも実用的意味があることを示す。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Unlimited Knowledge Distillation for Action Recognition in the Dark [69.16824521829024]
既存の知識組み立て手法では、複数の教師モデルからの知識を学生モデルに抽出するために大量のGPUメモリを必要とする。
本稿では,無制限な知識蒸留(UKD)を提案する。
実験の結果,UKDで蒸留した単一ストリームネットワークは2ストリームネットワークを超えていることがわかった。
論文 参考訳(メタデータ) (2023-08-18T06:04:39Z) - Improved Knowledge Distillation for Pre-trained Language Models via
Knowledge Selection [35.515135913846386]
本稿では, 知識蒸留プロセスにおいて, 適切な知識を選択するためのアクター批判的アプローチを提案する。
GLUEデータセットによる実験結果から,本手法はいくつかの強い知識蒸留基準を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-02-01T13:40:19Z) - Revisiting Self-Distillation [50.29938732233947]
自己蒸留とは、大きなモデル(教師)からよりコンパクトなモデル(生徒)に「知識」を移す手順である。
いくつかの作品では、自給自足の生徒が保持されたデータで教師より優れているという逸話がある。
我々は、自己蒸留がより平坦なミニマムをもたらすことを示すための広範な実験を行い、その結果、より良い一般化をもたらす。
論文 参考訳(メタデータ) (2022-06-17T00:18:51Z) - Controlling the Quality of Distillation in Response-Based Network
Compression [0.0]
圧縮ネットワークの性能は蒸留の品質によって管理される。
教師と学生のペアは、教師の訓練中にバッチサイズとエポック数のスイートスポットを見つけることで、蒸留の質を向上させることができる。
論文 参考訳(メタデータ) (2021-12-19T02:53:51Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Show, Attend and Distill:Knowledge Distillation via Attention-based
Feature Matching [14.666392130118307]
ほとんどの研究は、教師と学生の中間的な特徴を手動で結び付け、事前に定義されたリンクを通じて知識を伝達する。
リンクを手動で選択することなく,教師のすべての特徴量を利用した効果的かつ効率的な特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2021-02-05T03:07:57Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。