論文の概要: PURSUhInT: In Search of Informative Hint Points Based on Layer
Clustering for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2103.00053v1
- Date: Fri, 26 Feb 2021 21:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:14:08.059101
- Title: PURSUhInT: In Search of Informative Hint Points Based on Layer
Clustering for Knowledge Distillation
- Title(参考訳): PURSUhInT:知識蒸留のための層クラスタリングに基づくインフォメーティブなヒントポイントの探索
- Authors: Reyhan Kevser Keser, Aydin Ayanzadeh, Omid Abdollahi Aghdam, Caglar
Kilcioglu, Behcet Ugur Toreyin, Nazim Kemal Ure
- Abstract要約: 知識蒸留の最も効率的な方法の1つは、教師モデルのいくつかの異なる層から情報(ヒント)で学生モデルが注入されるヒント蒸留です。
本稿では,教師モデルの階層を複数の指標に対してクラスタリングし,クラスタセンターをヒントポイントとして利用するクラスタリングに基づくヒント選択手法を提案する。
その結果,提案アルゴリズムが選択したヒントポイントは,同じ学生モデルやデータセット上での最先端知識蒸留アルゴリズムに対して,圧縮性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 0.9786690381850356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel knowledge distillation methodology for compressing deep
neural networks. One of the most efficient methods for knowledge distillation
is hint distillation, where the student model is injected with information
(hints) from several different layers of the teacher model. Although the
selection of hint points can drastically alter the compression performance,
there is no systematic approach for selecting them, other than brute-force
hyper-parameter search. We propose a clustering based hint selection
methodology, where the layers of teacher model are clustered with respect to
several metrics and the cluster centers are used as the hint points. The
proposed approach is validated in CIFAR-100 dataset, where ResNet-110 network
was used as the teacher model. Our results show that hint points selected by
our algorithm results in superior compression performance with respect to
state-of-the-art knowledge distillation algorithms on the same student models
and datasets.
- Abstract(参考訳): 深層ニューラルネットワークを圧縮するための新しい知識蒸留法を提案する。
知識蒸留の最も効率的な方法の1つは、教師モデルのいくつかの異なる層から情報(ヒント)で学生モデルが注入されるヒント蒸留です。
ヒントポイントの選択は圧縮性能を大幅に変えることができるが、ブルートフォースハイパーパラメータサーチ以外は、それらを選択するための体系的なアプローチは存在しない。
本稿では,教師モデルの階層を複数の指標に対してクラスタリングし,クラスタセンターをヒントポイントとして利用するクラスタリングに基づくヒント選択手法を提案する。
提案手法は,教師モデルとしてResNet-110ネットワークを用いたCIFAR-100データセットで検証されている。
その結果,提案アルゴリズムが選択したヒントポイントは,同じ学生モデルやデータセット上での最先端知識蒸留アルゴリズムに対して,圧縮性能が向上することがわかった。
関連論文リスト
- Preview-based Category Contrastive Learning for Knowledge Distillation [53.551002781828146]
知識蒸留(PCKD)のための新しい予見型カテゴリーコントラスト学習法を提案する。
まず、インスタンスレベルの特徴対応と、インスタンスの特徴とカテゴリ中心の関係の両方の構造的知識を蒸留する。
カテゴリ表現を明示的に最適化し、インスタンスとカテゴリの表現を明確に関連付けることができる。
論文 参考訳(メタデータ) (2024-10-18T03:31:00Z) - AICSD: Adaptive Inter-Class Similarity Distillation for Semantic
Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。
提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。
セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-08-08T13:17:20Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Follow Your Path: a Progressive Method for Knowledge Distillation [23.709919521355936]
本稿では,教師モデルの指導信号を学生のパラメータ空間に投影することで,新しいモデルに依存しないProKTを提案する。
画像とテキストの双方で実験した結果,提案したProKTは既存の知識蒸留法と比較して常に優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2021-07-20T07:44:33Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - Be Your Own Best Competitor! Multi-Branched Adversarial Knowledge
Transfer [15.499267533387039]
提案手法は,高速な画像分類とエンコーダデコーダアーキテクチャの両方に特化しており,推論過程において余分な計算オーバーヘッドを発生させることなく,小型・コンパクトなモデルの性能を向上させる。
提案手法は, 従来の自己蒸留法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-09T11:57:45Z) - Distilling Knowledge from Graph Convolutional Networks [146.71503336770886]
既存の知識蒸留法は畳み込みニューラルネットワーク(CNN)に焦点を当てている
本稿では,事前学習したグラフ畳み込みネットワーク(GCN)モデルから知識を抽出する手法を提案する。
提案手法は,GCNモデルに対する最先端の知識蒸留性能を実現する。
論文 参考訳(メタデータ) (2020-03-23T18:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。