論文の概要: Lipschitz Continuity Guided Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2108.12905v1
- Date: Sun, 29 Aug 2021 20:19:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 00:33:41.791224
- Title: Lipschitz Continuity Guided Knowledge Distillation
- Title(参考訳): リプシッツ連続性誘導知識蒸留
- Authors: Yuzhang Shang, Bin Duan, Ziliang Zong, Liqiang Nie, Yan Yan
- Abstract要約: 本稿では,リプシッツ連続性誘導知識蒸留フレームワークを提案する。
我々は、リプシッツ定数を計算するNPハード問題に対処するために、明示的な理論的導出を持つ説明可能な近似アルゴリズムを導出する。
実験結果から,本手法はいくつかの知識蒸留作業において,他のベンチマークよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 44.77558919044394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation has become one of the most important model compression
techniques by distilling knowledge from larger teacher networks to smaller
student ones. Although great success has been achieved by prior distillation
methods via delicately designing various types of knowledge, they overlook the
functional properties of neural networks, which makes the process of applying
those techniques to new tasks unreliable and non-trivial. To alleviate such
problem, in this paper, we initially leverage Lipschitz continuity to better
represent the functional characteristic of neural networks and guide the
knowledge distillation process. In particular, we propose a novel Lipschitz
Continuity Guided Knowledge Distillation framework to faithfully distill
knowledge by minimizing the distance between two neural networks' Lipschitz
constants, which enables teacher networks to better regularize student networks
and improve the corresponding performance. We derive an explainable
approximation algorithm with an explicit theoretical derivation to address the
NP-hard problem of calculating the Lipschitz constant. Experimental results
have shown that our method outperforms other benchmarks over several knowledge
distillation tasks (e.g., classification, segmentation and object detection) on
CIFAR-100, ImageNet, and PASCAL VOC datasets.
- Abstract(参考訳): 知識蒸留は、より大きな教師ネットワークからより小さな生徒に知識を蒸留することで、最も重要なモデル圧縮技術の一つとなっている。
様々な種類の知識を繊細に設計することで、先行蒸留法によって大きな成功を収めてきたが、ニューラルネットワークの機能的特性を見落としており、これらの技術を新しいタスクに適用するプロセスは信頼できず、非自明である。
このような問題を緩和するため,本論文ではまず,リプシッツ連続性を利用してニューラルネットワークの機能特性を表現し,知識蒸留過程を導く。
特に,2つのニューラルネットワークのリプシッツ定数間の距離を最小化し,教師ネットワークによる学生ネットワークの正則化と対応性能の向上を実現することにより,知識を忠実に蒸留するための,新しいリプシッツ連続性知識蒸留フレームワークを提案する。
リプシッツ定数を計算するNP-hard問題に対処するために、明示的な理論的導出を伴う説明可能な近似アルゴリズムを導出する。
実験の結果,cifar-100,imagenet,pascal vocデータセットにおいて,複数の知識蒸留タスク(分類,セグメンテーション,オブジェクト検出など)に対して他のベンチマークを上回った。
関連論文リスト
- Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - AICSD: Adaptive Inter-Class Similarity Distillation for Semantic
Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。
提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。
セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-08-08T13:17:20Z) - On effects of Knowledge Distillation on Transfer Learning [0.0]
本稿では,知識蒸留と伝達学習を組み合わせたTL+KDという機械学習アーキテクチャを提案する。
我々は,教師ネットワークの指導と知識を微調整中に利用することにより,学生ネットワークを改良し,精度などの検証性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-10-18T08:11:52Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Interpretable Embedding Procedure Knowledge Transfer via Stacked
Principal Component Analysis and Graph Neural Network [26.55774782646948]
本稿では,主成分分析に基づくIEP(Interpretable Embedding procedure)知識の生成手法を提案する。
実験の結果,提案手法で学習した学生ネットワークは,cifar100データセットの2.28%を改善した。
また,提案するkdプロセスの可視化により,埋め込み手続き知識を解釈できることを実証する。
論文 参考訳(メタデータ) (2021-04-28T03:40:37Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。