論文の概要: Understanding the Role of Mixup in Knowledge Distillation: An Empirical
Study
- arxiv url: http://arxiv.org/abs/2211.03946v2
- Date: Wed, 9 Nov 2022 01:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:44:54.063796
- Title: Understanding the Role of Mixup in Knowledge Distillation: An Empirical
Study
- Title(参考訳): 知識蒸留における混合の役割の理解--実証的研究
- Authors: Hongjun Choi, Eun Som Jeon, Ankita Shukla, Pavan Turaga
- Abstract要約: Mixupは、2つのデータサンプル間の線形一般化による新しいサンプルの作成に基づく、一般的なデータ拡張技術である。
知識蒸留(KD)はモデル圧縮と伝達学習に広く用いられている。
スムースネス」は両者のつながりであり、KDとミックスアップの相互作用を理解する上でも重要な属性である。
- 参考スコア(独自算出の注目度): 4.751886527142779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixup is a popular data augmentation technique based on creating new samples
by linear interpolation between two given data samples, to improve both the
generalization and robustness of the trained model. Knowledge distillation
(KD), on the other hand, is widely used for model compression and transfer
learning, which involves using a larger network's implicit knowledge to guide
the learning of a smaller network. At first glance, these two techniques seem
very different, however, we found that "smoothness" is the connecting link
between the two and is also a crucial attribute in understanding KD's interplay
with mixup. Although many mixup variants and distillation methods have been
proposed, much remains to be understood regarding the role of a mixup in
knowledge distillation. In this paper, we present a detailed empirical study on
various important dimensions of compatibility between mixup and knowledge
distillation. We also scrutinize the behavior of the networks trained with a
mixup in the light of knowledge distillation through extensive analysis,
visualizations, and comprehensive experiments on image classification. Finally,
based on our findings, we suggest improved strategies to guide the student
network to enhance its effectiveness. Additionally, the findings of this study
provide insightful suggestions to researchers and practitioners that commonly
use techniques from KD. Our code is available at
https://github.com/hchoi71/MIX-KD.
- Abstract(参考訳): Mixupは、トレーニングされたモデルの一般化と堅牢性を改善するために、2つのデータサンプル間の線形補間によって新しいサンプルを作成することに基づく、一般的なデータ拡張技術である。
一方、知識蒸留(KD)は、より大きなネットワークの暗黙の知識を用いてより小さなネットワークの学習を導くモデル圧縮と伝達学習に広く用いられている。
一見すると、これらの2つのテクニックは非常に異なるように見えるが、「滑らかさ」は両者のつながりであり、KDとミックスアップの相互作用を理解する上でも重要な属性である。
多くの混合変種や蒸留法が提案されているが、知識蒸留における混合変種の役割については多くは理解されていない。
本稿では,ミキシングと知識蒸留の相溶性に関する様々な重要な側面について,実験的に考察する。
また,画像分類に関する広範な解析,可視化,総合的な実験を通じて,知識蒸留の観点で混合学習したネットワークの挙動を検証した。
最後に,本研究の成果に基づいて,学生ネットワークの有効性を高めるための改善戦略を提案する。
さらに,本研究の知見は,kdの手法を一般的に使用する研究者や実践者に対して,洞察に富んだ提案を与えるものである。
私たちのコードはhttps://github.com/hchoi71/mix-kdで利用可能です。
関連論文リスト
- Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文 参考訳(メタデータ) (2023-07-21T10:08:58Z) - Leveraging Different Learning Styles for Improved Knowledge Distillation
in Biomedical Imaging [0.9208007322096533]
我々の研究は知識多様化の概念を活用して、知識蒸留(KD)や相互学習(ML)といったモデル圧縮技術の性能を向上させる。
我々は,教師から学生(KD)への知識伝達を可能にすると同時に,学生(ML)間の協調学習を促進する統一的な枠組みで,一教師と二学生のネットワークを利用する。
教師が学生ネットワークと予測や特徴表現の形で同じ知識を共有する従来の手法とは異なり,提案手法では,教師の予測と特徴マップの学習により,より多様化した戦略を採用する。
論文 参考訳(メタデータ) (2022-12-06T12:40:45Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - Partial to Whole Knowledge Distillation: Progressive Distilling
Decomposed Knowledge Boosts Student Better [18.184818787217594]
我々は、知識分解の新しい概念を導入し、textbfPartialをtextbfWhole textbfKnowledge textbfDistillation(textbfPWKD)パラダイムに転送する。
そして、循環学習率を利用して収束を加速する複数の訓練段階において、事前訓練を受けた教師から知識を部分的に抽出する。
論文 参考訳(メタデータ) (2021-09-26T06:33:25Z) - Distilling Holistic Knowledge with Graph Neural Networks [37.86539695906857]
知識蒸留(KD)は、より大規模な教師ネットワークからより小さな学習可能な学生ネットワークへ知識を伝達することを目的としている。
既存のKD法は主に、個々の知識と関係知識の2つの種類の知識を考察してきた。
本稿では, インスタンス間に構築された属性グラフに基づいて, 新たな包括的知識を蒸留する。
論文 参考訳(メタデータ) (2021-08-12T02:47:59Z) - Similarity Transfer for Knowledge Distillation [25.042405967561212]
知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達法(stkd)を提案する。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
論文 参考訳(メタデータ) (2021-03-18T06:54:59Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Towards Understanding Ensemble, Knowledge Distillation and
Self-Distillation in Deep Learning [93.18238573921629]
本研究では,学習モデルのアンサンブルがテスト精度を向上させる方法と,アンサンブルの優れた性能を単一モデルに蒸留する方法について検討する。
深層学習におけるアンサンブル/知識蒸留は,従来の学習理論とは大きく異なる。
また, 自己蒸留は, アンサンブルと知識蒸留を暗黙的に組み合わせて, 試験精度を向上させることができることを示した。
論文 参考訳(メタデータ) (2020-12-17T18:34:45Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。