Fugu-MT 論文翻訳(概要): Cross-Layer Distillation with Semantic Calibration

論文の概要: Cross-Layer Distillation with Semantic Calibration

arxiv url: http://arxiv.org/abs/2012.03236v1
Date: Sun, 6 Dec 2020 11:16:07 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-21 14:05:12.938699
Title: Cross-Layer Distillation with Semantic Calibration
Title（参考訳）: セマンティックキャリブレーションによるクロス層蒸留
Authors: Defang Chen, Jian-Ping Mei, Yuan Zhang, Can Wang, Zhe Wang, Yan Feng, Chun Chen
Abstract要約: 本稿では,教師モデルの適切なターゲット層を各生徒層に自動的に割り当てるセマンティックなクロスレイヤー知識蒸留(SemCKD)を提案する。学習した注意分布により、各学生層は教師モデルから1つの固定中間層ではなく、複数の階層に含まれる知識を蒸留し、訓練における適切なクロス層監視を行う。
参考スコア（独自算出の注目度）: 26.59016826651437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently proposed knowledge distillation approaches based on feature-map transfer validate that intermediate layers of a teacher model can serve as effective targets for training a student model to obtain better generalization ability. Existing studies mainly focus on particular representation forms for knowledge transfer between manually specified pairs of teacher-student intermediate layers. However, semantics of intermediate layers may vary in different networks and manual association of layers might lead to negative regularization caused by semantic mismatch between certain teacher-student layer pairs. To address this problem, we propose Semantic Calibration for Cross-layer Knowledge Distillation (SemCKD), which automatically assigns proper target layers of the teacher model for each student layer with an attention mechanism. With a learned attention distribution, each student layer distills knowledge contained in multiple layers rather than a single fixed intermediate layer from the teacher model for appropriate cross-layer supervision in training. Consistent improvements over state-of-the-art approaches are observed in extensive experiments with various network architectures for teacher and student models, demonstrating the effectiveness and flexibility of the proposed attention based soft layer association mechanism for cross-layer distillation.
Abstract（参考訳）: 近年,教師モデルの中間層が,学生モデルの一般化能力を高めるための学習目標として有効であることを,特徴地図転送に基づく知識蒸留手法が提案されている。既存の研究は主に、手動で特定された教師-学生中間層間の知識伝達のための特定の表現形式に焦点を当てている。しかし、中間層のセマンティクスは異なるネットワークで異なり、教師と学生のペア間のセマンティクスミスマッチに起因する負の規則化につながる可能性がある。この問題を解決するために,教師モデルの適切なターゲット層を各生徒層に自動的にアテンション機構で割り当てるSemCKD(Semantic Calibration for Cross-layer Knowledge Distillation)を提案する。学習した注意分布により、各学生層は教師モデルから1つの固定中間層ではなく、複数の階層に含まれる知識を蒸留し、訓練における適切なクロス層監視を行う。教師および学生モデルのための様々なネットワークアーキテクチャを用いた広範囲な実験において、最先端のアプローチに対する一貫性の向上が観察され、提案手法の有効性と柔軟性を示す。

関連論文リスト

Enhancing Layer Attention Efficiency through Pruning Redundant Retrievals [0.0]
隣接層間のKL(Kulback-Leibler)のばらつきを利用して冗長性を定量化する手法を提案する。また、冗長層を正確に識別し、スキップする拡張ベータ量子マッピング(EBQM)手法も導入する。提案したELAアーキテクチャは,トレーニング効率と全体的なパフォーマンスを両立させ,トレーニング時間の30%削減を実現している。
論文参考訳（メタデータ） (2025-03-09T06:20:11Z)
TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文参考訳（メタデータ） (2024-10-16T08:02:49Z)
Harmonizing knowledge Transfer in Neural Network with Unified Distillation [20.922545937770085]
知識蒸留(KD)は、アーキテクチャを変更することなく、面倒なネットワーク(教師)から軽量なネットワーク(学生)に知識を伝達する能力で知られている。本稿では,統一KDフレームワークにおける多様な知識源を活用することによって,新たな視点を紹介する。
論文参考訳（メタデータ） (2024-09-27T09:09:45Z)
Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文参考訳（メタデータ） (2023-03-09T13:42:04Z)
Knowledge Distillation from A Stronger Teacher [44.11781464210916]
本稿では,より強い教師を駆使したDIST法を提案する。経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。提案手法は単純かつ実用的であり,様々なアーキテクチャに適応できることを示す。
論文参考訳（メタデータ） (2022-05-21T08:30:58Z)
Weakly Supervised Semantic Segmentation via Alternative Self-Dual Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文参考訳（メタデータ） (2021-12-17T11:56:56Z)
RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation [24.951887361152988]
本稿では,教師モデルから中間層をランダムに選択し,学生モデルの中間層に蒸留するRAIL-KD手法を提案する。我々は,RAIL-KD手法が他の最先端中間層KD法よりも性能と訓練時間の両方で優れていることを示す。
論文参考訳（メタデータ） (2021-09-21T13:21:13Z)
Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文参考訳（メタデータ） (2021-05-11T04:09:49Z)
Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-05T00:49:14Z)
BERT-EMD: Many-to-Many Layer Mapping for BERT Compression with Earth Mover's Distance [25.229624487344186]
高ストレージと計算コストは、事前訓練された言語モデルがリソース制約されたデバイスに効果的にデプロイされることを妨げる。本稿では,多層多層膜マッピングに基づく新しいBERT蒸留法を提案する。我々のモデルは様々なNLPタスクに対して異なる教師層から適応的に学習することができる。
論文参考訳（メタデータ） (2020-10-13T02:53:52Z)
Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文参考訳（メタデータ） (2020-05-02T06:56:56Z)
Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文参考訳（メタデータ） (2020-01-06T20:03:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。