論文の概要: Cross-Layer Distillation with Semantic Calibration
- arxiv url: http://arxiv.org/abs/2012.03236v1
- Date: Sun, 6 Dec 2020 11:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 14:05:12.938699
- Title: Cross-Layer Distillation with Semantic Calibration
- Title(参考訳): セマンティックキャリブレーションによるクロス層蒸留
- Authors: Defang Chen, Jian-Ping Mei, Yuan Zhang, Can Wang, Zhe Wang, Yan Feng,
Chun Chen
- Abstract要約: 本稿では,教師モデルの適切なターゲット層を各生徒層に自動的に割り当てるセマンティックなクロスレイヤー知識蒸留(SemCKD)を提案する。
学習した注意分布により、各学生層は教師モデルから1つの固定中間層ではなく、複数の階層に含まれる知識を蒸留し、訓練における適切なクロス層監視を行う。
- 参考スコア(独自算出の注目度): 26.59016826651437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently proposed knowledge distillation approaches based on feature-map
transfer validate that intermediate layers of a teacher model can serve as
effective targets for training a student model to obtain better generalization
ability. Existing studies mainly focus on particular representation forms for
knowledge transfer between manually specified pairs of teacher-student
intermediate layers. However, semantics of intermediate layers may vary in
different networks and manual association of layers might lead to negative
regularization caused by semantic mismatch between certain teacher-student
layer pairs. To address this problem, we propose Semantic Calibration for
Cross-layer Knowledge Distillation (SemCKD), which automatically assigns proper
target layers of the teacher model for each student layer with an attention
mechanism. With a learned attention distribution, each student layer distills
knowledge contained in multiple layers rather than a single fixed intermediate
layer from the teacher model for appropriate cross-layer supervision in
training. Consistent improvements over state-of-the-art approaches are observed
in extensive experiments with various network architectures for teacher and
student models, demonstrating the effectiveness and flexibility of the proposed
attention based soft layer association mechanism for cross-layer distillation.
- Abstract(参考訳): 近年,教師モデルの中間層が,学生モデルの一般化能力を高めるための学習目標として有効であることを,特徴地図転送に基づく知識蒸留手法が提案されている。
既存の研究は主に、手動で特定された教師-学生中間層間の知識伝達のための特定の表現形式に焦点を当てている。
しかし、中間層のセマンティクスは異なるネットワークで異なり、教師と学生のペア間のセマンティクスミスマッチに起因する負の規則化につながる可能性がある。
この問題を解決するために,教師モデルの適切なターゲット層を各生徒層に自動的にアテンション機構で割り当てるSemCKD(Semantic Calibration for Cross-layer Knowledge Distillation)を提案する。
学習した注意分布により、各学生層は教師モデルから1つの固定中間層ではなく、複数の階層に含まれる知識を蒸留し、訓練における適切なクロス層監視を行う。
教師および学生モデルのための様々なネットワークアーキテクチャを用いた広範囲な実験において、最先端のアプローチに対する一貫性の向上が観察され、提案手法の有効性と柔軟性を示す。
関連論文リスト
- TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - Harmonizing knowledge Transfer in Neural Network with Unified Distillation [20.922545937770085]
知識蒸留(KD)は、アーキテクチャを変更することなく、面倒なネットワーク(教師)から軽量なネットワーク(学生)に知識を伝達する能力で知られている。
本稿では,統一KDフレームワークにおける多様な知識源を活用することによって,新たな視点を紹介する。
論文 参考訳(メタデータ) (2024-09-27T09:09:45Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - Knowledge Distillation from A Stronger Teacher [44.11781464210916]
本稿では,より強い教師を駆使したDIST法を提案する。
経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。
提案手法は単純かつ実用的であり,様々なアーキテクチャに適応できることを示す。
論文 参考訳(メタデータ) (2022-05-21T08:30:58Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation [24.951887361152988]
本稿では,教師モデルから中間層をランダムに選択し,学生モデルの中間層に蒸留するRAIL-KD手法を提案する。
我々は,RAIL-KD手法が他の最先端中間層KD法よりも性能と訓練時間の両方で優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T13:21:13Z) - Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive
Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。
マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-11T04:09:49Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - BERT-EMD: Many-to-Many Layer Mapping for BERT Compression with Earth
Mover's Distance [25.229624487344186]
高ストレージと計算コストは、事前訓練された言語モデルがリソース制約されたデバイスに効果的にデプロイされることを妨げる。
本稿では,多層多層膜マッピングに基づく新しいBERT蒸留法を提案する。
我々のモデルは様々なNLPタスクに対して異なる教師層から適応的に学習することができる。
論文 参考訳(メタデータ) (2020-10-13T02:53:52Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。