論文の概要: Show, Attend and Distill:Knowledge Distillation via Attention-based
Feature Matching
- arxiv url: http://arxiv.org/abs/2102.02973v1
- Date: Fri, 5 Feb 2021 03:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 13:03:49.405449
- Title: Show, Attend and Distill:Knowledge Distillation via Attention-based
Feature Matching
- Title(参考訳): 表示, 注意, 蒸留:注意に基づく特徴マッチングによる知識蒸留
- Authors: Mingi Ji, Byeongho Heo, Sungrae Park
- Abstract要約: ほとんどの研究は、教師と学生の中間的な特徴を手動で結び付け、事前に定義されたリンクを通じて知識を伝達する。
リンクを手動で選択することなく,教師のすべての特徴量を利用した効果的かつ効率的な特徴蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 14.666392130118307
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge distillation extracts general knowledge from a pre-trained teacher
network and provides guidance to a target student network. Most studies
manually tie intermediate features of the teacher and student, and transfer
knowledge through pre-defined links. However, manual selection often constructs
ineffective links that limit the improvement from the distillation. There has
been an attempt to address the problem, but it is still challenging to identify
effective links under practical scenarios. In this paper, we introduce an
effective and efficient feature distillation method utilizing all the feature
levels of the teacher without manually selecting the links. Specifically, our
method utilizes an attention-based meta-network that learns relative
similarities between features, and applies identified similarities to control
distillation intensities of all possible pairs. As a result, our method
determines competent links more efficiently than the previous approach and
provides better performance on model compression and transfer learning tasks.
Further qualitative analyses and ablative studies describe how our method
contributes to better distillation. The implementation code is available at
github.com/clovaai/attention-feature-distillation.
- Abstract(参考訳): 知識蒸留は,教員ネットワークから一般知識を抽出し,対象学生ネットワークへのガイダンスを提供する。
ほとんどの研究は、教師と学生の中間的な特徴を手動で結び付け、事前に定義されたリンクを通じて知識を伝達する。
しかし、手動選択はしばしば蒸留による改善を制限する効果のないリンクを構築する。
この問題に対処する試みはあったが、実用的なシナリオで効果的なリンクを特定することは依然として困難である。
本論文では,教師の全ての特徴レベルを手作業で選択することなく有効かつ効率的な特徴抽出法を提案する。
具体的には,特徴間の相対的類似性を学習し,同一の類似性を適用して,可能な全対の蒸留強度を制御する。
その結果,本手法は従来手法よりも有能なリンクを効率的に決定し,モデル圧縮および転送学習タスクのパフォーマンスを向上する。
さらなる定性分析とアブレーション研究は、私たちの方法がより良い蒸留にどのように貢献するかを説明します。
実装コードはgithub.com/clovaai/attention-feature-distillationで入手できる。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - Normalized Feature Distillation for Semantic Segmentation [6.882655287146012]
正規化特徴蒸留(NFD)と呼ばれる簡易かつ効果的な特徴蒸留法を提案する。
提案手法は,都市景観,VOC 2012,ADE20Kデータセットのセマンティックセマンティックセマンティックセグメンテーションのための,最先端の蒸留結果を実現する。
論文 参考訳(メタデータ) (2022-07-12T01:54:25Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Students are the Best Teacher: Exit-Ensemble Distillation with
Multi-Exits [25.140055086630838]
本論文では,畳み込みニューラルネットワーク(CNN)の分類性能を改善するための知識蒸留に基づく新しい学習法を提案する。
教師が生徒にのみ教える従来の蒸留の概念とは異なり、生徒は他の生徒や教師がもっとよく学ぶのを助けることができる。
論文 参考訳(メタデータ) (2021-04-01T07:10:36Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。