論文の概要: Leveraging Angular Distributions for Improved Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2302.14130v1
- Date: Mon, 27 Feb 2023 20:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 19:00:44.016038
- Title: Leveraging Angular Distributions for Improved Knowledge Distillation
- Title(参考訳): 知識蒸留における角分布の活用
- Authors: Eun Som Jeon, Hongjun Choi, Ankita Shukla, Pavan Turaga
- Abstract要約: コンピュータビジョンアプリケーションでは、より高いキャパシティモデルによって学習される機能アクティベーションには、より豊富な知識が含まれており、背景に焦点を絞らずに完全なオブジェクトを強調している。
本稿では, 角縁型蒸留(AMD)損失と呼ばれる新しい蒸留損失関数を提案する。
提案手法は, 細粒度特徴, 増量, 蒸留法など, その他の学習手法との整合性に優れていることを示す。
- 参考スコア(独自算出の注目度): 4.751886527142779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation as a broad class of methods has led to the development
of lightweight and memory efficient models, using a pre-trained model with a
large capacity (teacher network) to train a smaller model (student network).
Recently, additional variations for knowledge distillation, utilizing
activation maps of intermediate layers as the source of knowledge, have been
studied. Generally, in computer vision applications, it is seen that the
feature activation learned by a higher capacity model contains richer
knowledge, highlighting complete objects while focusing less on the background.
Based on this observation, we leverage the dual ability of the teacher to
accurately distinguish between positive (relevant to the target object) and
negative (irrelevant) areas. We propose a new loss function for distillation,
called angular margin-based distillation (AMD) loss. AMD loss uses the angular
distance between positive and negative features by projecting them onto a
hypersphere, motivated by the near angular distributions seen in many feature
extractors. Then, we create a more attentive feature that is angularly
distributed on the hypersphere by introducing an angular margin to the positive
feature. Transferring such knowledge from the teacher network enables the
student model to harness the higher discrimination of positive and negative
features for the teacher, thus distilling superior student models. The proposed
method is evaluated for various student-teacher network pairs on four public
datasets. Furthermore, we show that the proposed method has advantages in
compatibility with other learning techniques, such as using fine-grained
features, augmentation, and other distillation methods.
- Abstract(参考訳): 幅広い手法としての知識蒸留は、より小さなモデル(学生ネットワーク)を訓練するために、大量の能力を持つ事前学習モデル(教師ネットワーク)を用いて、軽量でメモリ効率の良いモデルの開発につながっている。
近年,中間層の活性化マップを知識源として,知識蒸留のさらなるバリエーションが研究されている。
一般に、コンピュータビジョンアプリケーションでは、高容量モデルによって学習される機能アクティベーションは、よりリッチな知識を含み、背景に焦点を絞らずに完全なオブジェクトを強調する。
本研究は,教師の2つの能力を活用し,正の(対象物に関連)領域と負の(無関係)領域を正確に区別する。
本稿では, 角縁型蒸留(AMD)損失と呼ばれる新しい蒸留損失関数を提案する。
AMD損失は、多くの特徴抽出器に見られる近角分布に動機づけられた超球面に投影することで、正と負の特徴の間の角距離を使用する。
そして,その正の特徴に角マージンを導入することにより,超球面上に角分布するより注意深い特徴を創出する。
このような知識を教師ネットワークから移すことで、生徒モデルは教師のポジティブな特徴とネガティブな特徴のより高い識別を活用できるため、優れた生徒モデルを蒸留することができる。
提案手法は,4つの公開データセット上で,学生と教師のネットワークペアについて評価する。
さらに, 提案手法は, 微細な特徴, 増量, 蒸留法など, 他の学習手法との互換性に優れていることを示す。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning [17.690698736544626]
本稿では,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。
このハイブリッドアプローチは、大規模モデルのロバストな機能を活用して、大規模な未ラベルデータを効果的に活用する。
半教師付き学習に基づく知識蒸留(SSLKD)アプローチは,学生モデルの性能向上を示す。
論文 参考訳(メタデータ) (2024-02-07T22:50:47Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Extracting knowledge from features with multilevel abstraction [3.4443503349903124]
自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。
本稿では,本手法と異なる方法で,新しいSKD手法を提案する。
実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
論文 参考訳(メタデータ) (2021-12-04T02:25:46Z) - Visualizing the embedding space to explain the effect of knowledge
distillation [5.678337324555035]
近年の研究では、知識蒸留はネットワークのサイズを減らすのに有効であることが判明している。
これらの進歩にもかかわらず、この方法がなぜ機能するのか、つまり、結果として生じる学生モデルが「どう機能するか」は、いまだに不明である。
論文 参考訳(メタデータ) (2021-10-09T07:04:26Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。