Fugu-MT 論文翻訳(概要): Multi-head Knowledge Distillation for Model Compression

論文の概要: Multi-head Knowledge Distillation for Model Compression

arxiv url: http://arxiv.org/abs/2012.02911v1
Date: Sat, 5 Dec 2020 00:49:14 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-22 12:15:19.892652
Title: Multi-head Knowledge Distillation for Model Compression
Title（参考訳）: モデル圧縮のためのマルチヘッド知識蒸留
Authors: Huan Wang, Suhas Lohit, Michael Jones, Yun Fu
Abstract要約: そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。提案手法は,本論文で提示された従来手法よりも優れていることを示す。
参考スコア（独自算出の注目度）: 65.58705111863814
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Several methods of knowledge distillation have been developed for neural network compression. While they all use the KL divergence loss to align the soft outputs of the student model more closely with that of the teacher, the various methods differ in how the intermediate features of the student are encouraged to match those of the teacher. In this paper, we propose a simple-to-implement method using auxiliary classifiers at intermediate layers for matching features, which we refer to as multi-head knowledge distillation (MHKD). We add loss terms for training the student that measure the dissimilarity between student and teacher outputs of the auxiliary classifiers. At the same time, the proposed method also provides a natural way to measure differences at the intermediate layers even though the dimensions of the internal teacher and student features may be different. Through several experiments in image classification on multiple datasets we show that the proposed method outperforms prior relevant approaches presented in the literature.
Abstract（参考訳）: ニューラルネットワーク圧縮のための知識蒸留法が開発されている。学生モデルのソフトアウトプットを教師のソフトアウトプットとより緊密に整合させるためにKL分散損失を用いるが、学生の中間的特徴が教師のものとどのように一致するかは様々な方法が異なる。本稿では,マルチヘッド知識蒸留(MHKD)と呼ぶ,中間層における補助的分類器を用いた簡易な実装法を提案する。補助分類器の学生と教師の出力の相違を計測する学生の訓練のための損失項を追加する。同時に,本手法は,内部教師の次元や学生の特徴が異なるとしても,中間層の違いを測定する自然な方法も提供する。複数のデータセットにおける画像分類実験を通じて,提案手法が文献に提示される先行手法よりも優れていることを示す。

関連論文リスト

Preview-based Category Contrastive Learning for Knowledge Distillation [53.551002781828146]
知識蒸留(PCKD)のための新しい予見型カテゴリーコントラスト学習法を提案する。まず、インスタンスレベルの特徴対応と、インスタンスの特徴とカテゴリ中心の関係の両方の構造的知識を蒸留する。カテゴリ表現を明示的に最適化し、インスタンスとカテゴリの表現を明確に関連付けることができる。
論文参考訳（メタデータ） (2024-10-18T03:31:00Z)
Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文参考訳（メタデータ） (2024-08-16T22:11:01Z)
Relational Representation Distillation [6.24302896438145]
知識蒸留は、巨大で面倒な教師モデルからよりコンパクトな学生モデルへの知識の伝達を伴う。標準的アプローチは教師の内部表現における重要な構造的関係を捉えるのに失敗する。近年の進歩は対照的な学習目標に変わったが、これらの手法はインスタンス識別を通じて過度に厳格な制約を課している。本手法では,教師と生徒の分布に異なる温度パラメータを用い,よりシャープな学生出力を用いて,二次的類似性を保ちながら一次関係の正確な学習を可能にする。
論文参考訳（メタデータ） (2024-07-16T14:56:13Z)
I2CKD : Intra- and Inter-Class Knowledge Distillation for Semantic Segmentation [1.433758865948252]
本稿では,イメージセマンティックセグメンテーションに適した新しい知識蒸留法を提案する。本手法の焦点は,教師(面倒なモデル)と生徒(コンパクトモデル)の中間層間の知識の獲得と伝達である。
論文参考訳（メタデータ） (2024-03-27T12:05:22Z)
AICSD: Adaptive Inter-Class Similarity Distillation for Semantic Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文参考訳（メタデータ） (2023-08-08T13:17:20Z)
Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップこれらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。 DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文参考訳（メタデータ） (2023-05-25T04:49:34Z)
EmbedDistill: A Geometric Knowledge Distillation for Information Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95～97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文参考訳（メタデータ） (2023-01-27T22:04:37Z)
Knowledge Distillation from A Stronger Teacher [44.11781464210916]
本稿では,より強い教師を駆使したDIST法を提案する。経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。提案手法は単純かつ実用的であり,様々なアーキテクチャに適応できることを示す。
論文参考訳（メタデータ） (2022-05-21T08:30:58Z)
Adaptive Distillation: Aggregating Knowledge from Multiple Paths for Efficient Distillation [15.337420940135704]
ニューラルネットワーク圧縮アルゴリズムの主なトレンドの1つに、知識蒸留がある。本稿では,マルチタスク学習に基づく適応手法を提案する。本稿では, 知識蒸留の分類, セマンティックセグメンテーション, オブジェクト検出タスクへの応用について, 他のベースラインに対する提案手法の有効性を実証的に示す。
論文参考訳（メタデータ） (2021-10-19T00:57:40Z)
Cross-Layer Distillation with Semantic Calibration [26.59016826651437]
本稿では,教師モデルの適切なターゲット層を各生徒層に自動的に割り当てるセマンティックなクロスレイヤー知識蒸留(SemCKD)を提案する。学習した注意分布により、各学生層は教師モデルから1つの固定中間層ではなく、複数の階層に含まれる知識を蒸留し、訓練における適切なクロス層監視を行う。
論文参考訳（メタデータ） (2020-12-06T11:16:07Z)
There and Back Again: Revisiting Backpropagation Saliency Methods [87.40330595283969]
正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。本稿では,そのような手法を統一可能な単一のフレームワークを提案する。
論文参考訳（メタデータ） (2020-04-06T17:58:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。