論文の概要: Rethinking Centered Kernel Alignment in Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2401.11824v3
- Date: Sun, 28 Apr 2024 09:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 23:55:37.282548
- Title: Rethinking Centered Kernel Alignment in Knowledge Distillation
- Title(参考訳): 知識蒸留におけるカーネルアライメントの再考
- Authors: Zikai Zhou, Yunhang Shen, Shitong Shao, Linrui Gong, Shaohui Lin,
- Abstract要約: CKA(Centered Kernel Alignment)は、表現の類似性を測定するために広く用いられ、いくつかの知識蒸留法に応用されている。
本稿ではまず,CKAを最大平均離散値(MMD)の上界と定数項に分解するCKAの有効性を理論的に説明する。
本稿では,CKA と MMD の接続を事実上確立する新しい関係中心カーネルアライメント (RCKA) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.67732046242562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation has emerged as a highly effective method for bridging the representation discrepancy between large-scale models and lightweight models. Prevalent approaches involve leveraging appropriate metrics to minimize the divergence or distance between the knowledge extracted from the teacher model and the knowledge learned by the student model. Centered Kernel Alignment (CKA) is widely used to measure representation similarity and has been applied in several knowledge distillation methods. However, these methods are complex and fail to uncover the essence of CKA, thus not answering the question of how to use CKA to achieve simple and effective distillation properly. This paper first provides a theoretical perspective to illustrate the effectiveness of CKA, which decouples CKA to the upper bound of Maximum Mean Discrepancy~(MMD) and a constant term. Drawing from this, we propose a novel Relation-Centered Kernel Alignment~(RCKA) framework, which practically establishes a connection between CKA and MMD. Furthermore, we dynamically customize the application of CKA based on the characteristics of each task, with less computational source yet comparable performance than the previous methods. The extensive experiments on the CIFAR-100, ImageNet-1k, and MS-COCO demonstrate that our method achieves state-of-the-art performance on almost all teacher-student pairs for image classification and object detection, validating the effectiveness of our approaches. Our code is available in https://github.com/Klayand/PCKA
- Abstract(参考訳): 知識蒸留は、大規模モデルと軽量モデルの間の表現の相違をブリッジする非常に効果的な方法として登場した。
代表的なアプローチは、教師モデルから抽出された知識と学生モデルによって学習された知識とのばらつきや距離を最小化するために、適切なメトリクスを活用することである。
CKA(Centered Kernel Alignment)は、表現の類似性を測定するために広く用いられ、いくつかの知識蒸留法に応用されている。
しかし、これらの手法は複雑であり、CKAの本質を明らかにすることができないため、CKAをいかにしてシンプルで効果的な蒸留を適切に行うかという疑問に答えることができない。
本稿ではまず,CKAを最大平均離散値~(MMD)の上界と定数項に分解するCKAの有効性を理論的に説明する。
そこで本研究では,CKAとMDDの相互接続を実質的に確立する,リレーショナル中心カーネルアライメント~(RCKA)フレームワークを提案する。
さらに,各タスクの特性に基づいてCKAの適用を動的にカスタマイズする。
CIFAR-100, ImageNet-1k, MS-COCOの広範囲な実験により, 画像分類とオブジェクト検出のためのほぼすべての教師と学生のペアに対して, 最先端のパフォーマンスを実現し, 提案手法の有効性を検証した。
私たちのコードはhttps://github.com/Klayand/PCKAで利用可能です。
関連論文リスト
- CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。
本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Structural Knowledge Distillation for Object Detection [2.690687471762886]
構造的類似性(SSIM)に基づく画素単位独立lp-normの置き換えを提案する。
本手法は計算オーバーヘッドが少なく,実装が容易であると同時に,標準の lp-norm を著しく上回っている。
論文 参考訳(メタデータ) (2022-11-23T17:06:52Z) - Reliability of CKA as a Similarity Measure in Deep Learning [17.555458413538233]
我々はCKA感度を多種多様な単純な変換に特徴付ける分析を行う。
CKA類似度測定のいくつかの弱点について検討し、予期せぬ結果や反直感的な結果をもたらす状況を示す。
以上の結果から,CKAの値はモデルの機能的振る舞いにかなりの変化を伴わずに容易に操作できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T14:32:52Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Online Knowledge Distillation for Efficient Pose Estimation [37.81478634850458]
一段階的に人間の詩構造知識を蒸留し,新しいオンライン知識蒸留フレームワークについて検討する。
OKDHPは単一のマルチブランチネットワークをトレーニングし、予測されたヒートマップをそれぞれ取得する。
画素ワイドのKullback-Leibler分散を利用して、対象ヒートマップと予測値との差を最小限に抑える。
論文 参考訳(メタデータ) (2021-08-04T14:49:44Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。