論文の概要: Differentiable Feature Aggregation Search for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2008.00506v1
- Date: Sun, 2 Aug 2020 15:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 19:30:13.562735
- Title: Differentiable Feature Aggregation Search for Knowledge Distillation
- Title(参考訳): 知識蒸留のための識別可能な特徴集約探索
- Authors: Yushuo Guan, Pengyu Zhao, Bingxuan Wang, Yuanxing Zhang, Cong Yao,
Kaigui Bian, Jian Tang
- Abstract要約: 単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 47.94874193183427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation has become increasingly important in model
compression. It boosts the performance of a miniaturized student network with
the supervision of the output distribution and feature maps from a
sophisticated teacher network. Some recent works introduce multi-teacher
distillation to provide more supervision to the student network. However, the
effectiveness of multi-teacher distillation methods are accompanied by costly
computation resources. To tackle with both the efficiency and the effectiveness
of knowledge distillation, we introduce the feature aggregation to imitate the
multi-teacher distillation in the single-teacher distillation framework by
extracting informative supervision from multiple teacher feature maps.
Specifically, we introduce DFA, a two-stage Differentiable Feature Aggregation
search method that motivated by DARTS in neural architecture search, to
efficiently find the aggregations. In the first stage, DFA formulates the
searching problem as a bi-level optimization and leverages a novel bridge loss,
which consists of a student-to-teacher path and a teacher-to-student path, to
find appropriate feature aggregations. The two paths act as two players against
each other, trying to optimize the unified architecture parameters to the
opposite directions while guaranteeing both expressivity and learnability of
the feature aggregation simultaneously. In the second stage, DFA performs
knowledge distillation with the derived feature aggregation. Experimental
results show that DFA outperforms existing methods on CIFAR-100 and CINIC-10
datasets under various teacher-student settings, verifying the effectiveness
and robustness of the design.
- Abstract(参考訳): 知識蒸留はモデル圧縮においてますます重要になっている。
これは、洗練された教師ネットワークからの出力分布と特徴マップを監督することで、小型の学生ネットワークのパフォーマンスを高める。
いくつかの最近の研究は、学生ネットワークをより監督するために、マルチティーラー蒸留を導入している。
しかし, マルチティーチンガー蒸留法の有効性には, コストのかかる計算資源が伴う。
知識蒸留の効率性と有効性の両方に取り組むため,多元的特徴地図から情報的監督を抽出し,単元蒸留フレームワークにおける多元的蒸留を模倣する特徴集約法を提案する。
具体的には,ニューラルアーキテクチャ探索においてdartに動機づけられた2段階微分可能な特徴集約探索法であるdfaを導入し,その集約を効率的に探索する。
第一段階において、dfaは探索問題を二段階最適化として定式化し、生徒から教師への経路と教師から生徒への経路からなる新しい橋梁損失を利用して適切な特徴集約を求める。
2つのパスは2つのプレイヤーとして機能し、統一されたアーキテクチャパラメータを反対方向に最適化し、同時に特徴集約の表現性と学習性を保証する。
第2段階では、DFAは、導出された特徴集約を伴う知識蒸留を行う。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの各種教師学習環境下での既存手法よりも優れており,設計の有効性とロバスト性を検証している。
関連論文リスト
- Ensemble Learning via Knowledge Transfer for CTR Prediction [9.891226177252653]
本稿では,より大規模なアンサンブルネットワークを調査し,一般的なアンサンブル学習法に特有の3つの制約を見出す。
我々は,新しいモデルに依存しないアンサンブル知識伝達フレームワーク(EKTF)を提案する。
実世界の5つのデータセットの実験結果は、EKTFの有効性と互換性を示している。
論文 参考訳(メタデータ) (2024-11-25T06:14:20Z) - LAKD-Activation Mapping Distillation Based on Local Learning [12.230042188890838]
本稿では,新しい知識蒸留フレームワークであるローカル注意知識蒸留(LAKD)を提案する。
LAKDは、教師ネットワークからの蒸留情報をより効率的に利用し、高い解釈性と競争性能を実現する。
CIFAR-10, CIFAR-100, ImageNetのデータセットについて実験を行い, LAKD法が既存手法より有意に優れていたことを示す。
論文 参考訳(メタデータ) (2024-08-21T09:43:27Z) - I2CKD : Intra- and Inter-Class Knowledge Distillation for Semantic Segmentation [1.433758865948252]
本稿では,イメージセマンティックセグメンテーションに適した新しい知識蒸留法を提案する。
本手法の焦点は,教師(面倒なモデル)と生徒(コンパクトモデル)の中間層間の知識の獲得と伝達である。
論文 参考訳(メタデータ) (2024-03-27T12:05:22Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z) - Distilling a Powerful Student Model via Online Knowledge Distillation [158.68873654990895]
既存のオンライン知識蒸留アプローチは、最高のパフォーマンスを持つ学生を採用するか、より良い全体的なパフォーマンスのためのアンサンブルモデルを構築する。
本稿では,機能融合と自己蒸留という2つの要素からなるFFSDと呼ばれる新しいオンライン知識蒸留法を提案する。
論文 参考訳(メタデータ) (2021-03-26T13:54:24Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。