論文の概要: Partial to Whole Knowledge Distillation: Progressive Distilling
Decomposed Knowledge Boosts Student Better
- arxiv url: http://arxiv.org/abs/2109.12507v1
- Date: Sun, 26 Sep 2021 06:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:28:19.973907
- Title: Partial to Whole Knowledge Distillation: Progressive Distilling
Decomposed Knowledge Boosts Student Better
- Title(参考訳): 全知識蒸留:プログレッシブ蒸留 分解された知識が生徒を良くする
- Authors: Xuanyang Zhang, Xiangyu Zhang, Jian Sun
- Abstract要約: 我々は、知識分解の新しい概念を導入し、textbfPartialをtextbfWhole textbfKnowledge textbfDistillation(textbfPWKD)パラダイムに転送する。
そして、循環学習率を利用して収束を加速する複数の訓練段階において、事前訓練を受けた教師から知識を部分的に抽出する。
- 参考スコア(独自算出の注目度): 18.184818787217594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation field delicately designs various types of knowledge to
shrink the performance gap between compact student and large-scale teacher.
These existing distillation approaches simply focus on the improvement of
\textit{knowledge quality}, but ignore the significant influence of
\textit{knowledge quantity} on the distillation procedure. Opposed to the
conventional distillation approaches, which extract knowledge from a fixed
teacher computation graph, this paper explores a non-negligible research
direction from a novel perspective of \textit{knowledge quantity} to further
improve the efficacy of knowledge distillation. We introduce a new concept of
knowledge decomposition, and further put forward the \textbf{P}artial to
\textbf{W}hole \textbf{K}nowledge \textbf{D}istillation~(\textbf{PWKD})
paradigm. Specifically, we reconstruct teacher into weight-sharing sub-networks
with same depth but increasing channel width, and train sub-networks jointly to
obtain decomposed knowledge~(sub-networks with more channels represent more
knowledge). Then, student extract partial to whole knowledge from the
pre-trained teacher within multiple training stages where cyclic learning rate
is leveraged to accelerate convergence. Generally, \textbf{PWKD} can be
regarded as a plugin to be compatible with existing offline knowledge
distillation approaches. To verify the effectiveness of \textbf{PWKD}, we
conduct experiments on two benchmark datasets:~CIFAR-100 and ImageNet, and
comprehensive evaluation results reveal that \textbf{PWKD} consistently improve
existing knowledge distillation approaches without bells and whistles.
- Abstract(参考訳): 知識蒸留分野は,コンパクトな学生と大規模教員のパフォーマンスギャップを小さくするために,様々な知識を繊細に設計する。
これらの既存の蒸留アプローチは単に \textit{knowledge quality} の改善に焦点を合わせているが、蒸留手順に対する \textit{knowledge quantity} の影響は無視している。
本稿では,教師の計算グラフから知識を抽出する従来の蒸留手法に対抗して,知識蒸留の有効性をさらに向上させるため,新しい「textit{knowledge amount}」の観点から非無視的な研究方向を探求する。
知識分解という新しい概念を導入し、さらに \textbf{p}artialを \textbf{w}hole \textbf{k}nowledge \textbf{d}istillation~(\textbf{pwkd})パラダイムに展開する。
具体的には,教師を同一の深さでもチャネル幅が大きくなる重み分担サブネットワークに再構成し,サブネットワークを併用して分解知識を得る(より多くのチャネルを持つサブネットワークはより多くの知識を表す)。
そして、循環学習率を利用して収束を加速する複数の訓練段階において、事前訓練を受けた教師から知識を部分的に抽出する。
一般に、 textbf{PWKD} は既存のオフライン知識蒸留手法と互換性のあるプラグインと見なすことができる。
本研究では,<textbf{PWKD}の有効性を検証するために,-CIFAR-100とImageNetの2つのベンチマークデータセットを用いて実験を行い,その総合評価結果から,<textbf{PWKD}はベルやホイッスルを使わずに既存の知識蒸留アプローチを一貫して改善することを示した。
関連論文リスト
- Knowledge Distillation via Token-level Relationship Graph [12.356770685214498]
token-level Relation Graph (TRG) を用いた知識蒸留法を提案する。
TRGを利用することで、教師モデルから高レベルの意味情報を効果的にエミュレートすることができる。
我々は,提案手法の有効性を,いくつかの最先端手法に対して評価する実験を行った。
論文 参考訳(メタデータ) (2023-06-20T08:16:37Z) - Understanding the Role of Mixup in Knowledge Distillation: An Empirical
Study [4.751886527142779]
Mixupは、2つのデータサンプル間の線形一般化による新しいサンプルの作成に基づく、一般的なデータ拡張技術である。
知識蒸留(KD)はモデル圧縮と伝達学習に広く用いられている。
スムースネス」は両者のつながりであり、KDとミックスアップの相互作用を理解する上でも重要な属性である。
論文 参考訳(メタデータ) (2022-11-08T01:43:14Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Knowledge Condensation Distillation [38.446333274732126]
既存の方法は、知識のヒントを発掘し、すべての知識を学生に伝達することに焦点を当てている。
本稿では,知識凝縮蒸留(KCD)を提案する。
我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能なオーバーヘッドがない。
論文 参考訳(メタデータ) (2022-07-12T09:17:34Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Self-distillation with Batch Knowledge Ensembling Improves ImageNet
Classification [57.5041270212206]
本稿では,アンカー画像のためのソフトターゲットを生成するために,BAtch Knowledge Ensembling (BAKE)を提案する。
BAKEは、1つのネットワークだけで複数のサンプルを網羅するオンライン知識を実現する。
既存の知識集合法と比較して計算とメモリのオーバーヘッドは最小限である。
論文 参考訳(メタデータ) (2021-04-27T16:11:45Z) - Refine Myself by Teaching Myself: Feature Refinement via Self-Knowledge
Distillation [12.097302014936655]
本論文では,FRSKD (Self-Knowledge Distillation) による自己知識蒸留法を提案する。
提案手法であるFRSKDは,ソフトラベルと特徴マップ蒸留の両方を自己知識蒸留に利用できる。
様々なタスクとベンチマークデータセットのパフォーマンス改善を列挙することで、frskdの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-15T10:59:43Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。