論文の概要: Cross-Layer Distillation with Semantic Calibration
- arxiv url: http://arxiv.org/abs/2012.03236v1
- Date: Sun, 6 Dec 2020 11:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 14:05:12.938699
- Title: Cross-Layer Distillation with Semantic Calibration
- Title(参考訳): セマンティックキャリブレーションによるクロス層蒸留
- Authors: Defang Chen, Jian-Ping Mei, Yuan Zhang, Can Wang, Zhe Wang, Yan Feng,
Chun Chen
- Abstract要約: 本稿では,教師モデルの適切なターゲット層を各生徒層に自動的に割り当てるセマンティックなクロスレイヤー知識蒸留(SemCKD)を提案する。
学習した注意分布により、各学生層は教師モデルから1つの固定中間層ではなく、複数の階層に含まれる知識を蒸留し、訓練における適切なクロス層監視を行う。
- 参考スコア(独自算出の注目度): 26.59016826651437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently proposed knowledge distillation approaches based on feature-map
transfer validate that intermediate layers of a teacher model can serve as
effective targets for training a student model to obtain better generalization
ability. Existing studies mainly focus on particular representation forms for
knowledge transfer between manually specified pairs of teacher-student
intermediate layers. However, semantics of intermediate layers may vary in
different networks and manual association of layers might lead to negative
regularization caused by semantic mismatch between certain teacher-student
layer pairs. To address this problem, we propose Semantic Calibration for
Cross-layer Knowledge Distillation (SemCKD), which automatically assigns proper
target layers of the teacher model for each student layer with an attention
mechanism. With a learned attention distribution, each student layer distills
knowledge contained in multiple layers rather than a single fixed intermediate
layer from the teacher model for appropriate cross-layer supervision in
training. Consistent improvements over state-of-the-art approaches are observed
in extensive experiments with various network architectures for teacher and
student models, demonstrating the effectiveness and flexibility of the proposed
attention based soft layer association mechanism for cross-layer distillation.
- Abstract(参考訳): 近年,教師モデルの中間層が,学生モデルの一般化能力を高めるための学習目標として有効であることを,特徴地図転送に基づく知識蒸留手法が提案されている。
既存の研究は主に、手動で特定された教師-学生中間層間の知識伝達のための特定の表現形式に焦点を当てている。
しかし、中間層のセマンティクスは異なるネットワークで異なり、教師と学生のペア間のセマンティクスミスマッチに起因する負の規則化につながる可能性がある。
この問題を解決するために,教師モデルの適切なターゲット層を各生徒層に自動的にアテンション機構で割り当てるSemCKD(Semantic Calibration for Cross-layer Knowledge Distillation)を提案する。
学習した注意分布により、各学生層は教師モデルから1つの固定中間層ではなく、複数の階層に含まれる知識を蒸留し、訓練における適切なクロス層監視を行う。
教師および学生モデルのための様々なネットワークアーキテクチャを用いた広範囲な実験において、最先端のアプローチに対する一貫性の向上が観察され、提案手法の有効性と柔軟性を示す。
関連論文リスト
- Layer-wise Linear Mode Connectivity [56.53308504862033]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識を融合させる直感的な方法である。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Layer-wise Shared Attention Network on Dynamical System Perspective [69.45492795788167]
本稿では,複数のネットワーク層にまたがって単一の注目モジュールを共有するDIAユニットという,新規かつ簡易なフレームワークを提案する。
当社のフレームワークでは,パラメータコストはレイヤ数とは無関係であり,既存の自己注意モジュールの精度をさらに向上する。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Layerwise Bregman Representation Learning with Applications to Knowledge
Distillation [21.162404996362948]
本稿では,ニューラルネットワークの階層的表現学習のための新しい手法を提案する。
特に、層移動関数に基づいてブレグマン発散を形成する。
知識蒸留への応用として,教師の表現の圧縮係数の予測として,学生ネットワークの学習問題を考察した。
論文 参考訳(メタデータ) (2022-09-15T06:38:50Z) - Knowledge Distillation from A Stronger Teacher [44.11781464210916]
本稿では,より強い教師を駆使したDIST法を提案する。
経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。
提案手法は単純かつ実用的であり,様々なアーキテクチャに適応できることを示す。
論文 参考訳(メタデータ) (2022-05-21T08:30:58Z) - Mapping Emulation for Knowledge Distillation [94.20630785525732]
本稿では,フェデレーション学習に不可欠なソース・ブラインド知識蒸留問題の定式化を行う。
新しいアーキテクチャMEKDを提案する。
様々なベンチマークにおいて、MEKDは既存のソースブレンドKD法より優れている。
論文 参考訳(メタデータ) (2022-05-21T02:38:16Z) - RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation [24.951887361152988]
本稿では,教師モデルから中間層をランダムに選択し,学生モデルの中間層に蒸留するRAIL-KD手法を提案する。
我々は,RAIL-KD手法が他の最先端中間層KD法よりも性能と訓練時間の両方で優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T13:21:13Z) - Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive
Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。
マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-11T04:09:49Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - BERT-EMD: Many-to-Many Layer Mapping for BERT Compression with Earth
Mover's Distance [25.229624487344186]
高ストレージと計算コストは、事前訓練された言語モデルがリソース制約されたデバイスに効果的にデプロイされることを妨げる。
本稿では,多層多層膜マッピングに基づく新しいBERT蒸留法を提案する。
我々のモデルは様々なNLPタスクに対して異なる教師層から適応的に学習することができる。
論文 参考訳(メタデータ) (2020-10-13T02:53:52Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。