論文の概要: Spirit Distillation: A Model Compression Method with Multi-domain
Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2104.14696v1
- Date: Thu, 29 Apr 2021 23:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:42:43.363059
- Title: Spirit Distillation: A Model Compression Method with Multi-domain
Knowledge Transfer
- Title(参考訳): スピリット蒸留:多領域知識伝達を用いたモデル圧縮法
- Authors: Zhiyuan Wu, Yu Jiang, Minghao Zhao, Chupeng Cui, Zongmin Yang, Xinhui
Xue, Hong Qi
- Abstract要約: 本稿では,多領域知識伝達を用いたモデル圧縮法であるスピリット蒸留(SD)と呼ばれる新しい知識蒸留モデルを提案する。
その結果, 精度が78.2%, 精度が1.4%, 精度が8.2%向上することがわかった。
- 参考スコア(独自算出の注目度): 5.0919090307185035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent applications pose requirements of both cross-domain knowledge transfer
and model compression to machine learning models due to insufficient training
data and limited computational resources. In this paper, we propose a new
knowledge distillation model, named Spirit Distillation (SD), which is a model
compression method with multi-domain knowledge transfer. The compact student
network mimics out a representation equivalent to the front part of the teacher
network, through which the general knowledge can be transferred from the source
domain (teacher) to the target domain (student). To further improve the
robustness of the student, we extend SD to Enhanced Spirit Distillation (ESD)
in exploiting a more comprehensive knowledge by introducing the proximity
domain which is similar to the target domain for feature extraction. Results
demonstrate that our method can boost mIOU and high-precision accuracy by 1.4%
and 8.2% respectively with 78.2% segmentation variance, and can gain a precise
compact network with only 41.8% FLOPs.
- Abstract(参考訳): 近年のアプリケーションは、訓練データ不足と限られた計算資源のために、クロスドメイン知識伝達とモデル圧縮の両方を機械学習モデルに要求している。
本稿では,多分野知識伝達を用いたモデル圧縮法であるスピリット蒸留(SD)と呼ばれる新しい知識蒸留モデルを提案する。
コンパクトな学生ネットワークは、教師ネットワークの前部に相当する表現を模倣し、ソースドメイン(教師)からターゲットドメイン(学生)へ一般知識を転送する。
学生のロバスト性をさらに向上するため,SDを拡張スピリット蒸留(ESD)に拡張し,特徴抽出のターゲット領域に類似した近接領域を導入することにより,より包括的知識を活用する。
その結果,miou とhigh-precision の精度をそれぞれ 78.2% のセグメンテーション分散で 1.4% と 8.2% 向上させ,41.8% のフロップで正確なコンパクトネットワークを得ることができた。
関連論文リスト
- Direct Distillation between Different Domains [97.39470334253163]
異なるドメイン間の直接蒸留(4Ds)と呼ばれる新しいワンステージ手法を提案する。
まず、Fourier変換に基づいて学習可能なアダプタを設計し、ドメイン固有の知識からドメイン不変知識を分離する。
次に、価値あるドメイン不変知識を学生ネットワークに転送するための融合活性化機構を構築する。
論文 参考訳(メタデータ) (2024-01-12T02:48:51Z) - Online Knowledge Distillation for Efficient Pose Estimation [37.81478634850458]
一段階的に人間の詩構造知識を蒸留し,新しいオンライン知識蒸留フレームワークについて検討する。
OKDHPは単一のマルチブランチネットワークをトレーニングし、予測されたヒートマップをそれぞれ取得する。
画素ワイドのKullback-Leibler分散を利用して、対象ヒートマップと予測値との差を最小限に抑える。
論文 参考訳(メタデータ) (2021-08-04T14:49:44Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - Spirit Distillation: Precise Real-time Prediction with Insufficient Data [4.6247655021017655]
スピリット蒸留(SD)という新しいトレーニングフレームワークを提案します。
微細チューニングに基づく伝達学習(FTT)と特徴に基づく知識蒸留の考え方を拡張している。
その結果, セグメンテーション(mIOU)において, 精度が1.4%, 精度が8.2%向上した。
論文 参考訳(メタデータ) (2021-03-25T10:23:30Z) - Refine Myself by Teaching Myself: Feature Refinement via Self-Knowledge
Distillation [12.097302014936655]
本論文では,FRSKD (Self-Knowledge Distillation) による自己知識蒸留法を提案する。
提案手法であるFRSKDは,ソフトラベルと特徴マップ蒸留の両方を自己知識蒸留に利用できる。
様々なタスクとベンチマークデータセットのパフォーマンス改善を列挙することで、frskdの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-15T10:59:43Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Dual-Teacher++: Exploiting Intra-domain and Inter-domain Knowledge with
Reliable Transfer for Cardiac Segmentation [69.09432302497116]
最先端の半教師付きドメイン適応フレームワークである Dual-Teacher++ を提案する。
ソースドメイン(MRなど)からのクロスモダリティ優先度を探索するドメイン間教師モデルと、ラベルのないターゲットドメインの知識を調査するドメイン内教師モデルを含む、新しいデュアル教師モデルを設計する。
このようにして、学生モデルは信頼できる二重ドメイン知識を得て、ターゲットドメインデータのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-01-07T05:17:38Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Extracurricular Learning: Knowledge Transfer Beyond Empirical
Distribution [17.996541285382463]
本稿では,圧縮された学生モデルと教師とのギャップを埋めるために,課外学習を提案する。
回帰と分類のタスクについて厳密な評価を行い、標準的な知識蒸留と比較すると、課外学習はギャップを46%減らして68%減らすことを示した。
これは、最近のニューラルネットワークアーキテクチャに対する経験的リスク最小化に基づくトレーニングと比較して、大幅な精度向上につながる。
論文 参考訳(メタデータ) (2020-06-30T18:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。