論文の概要: Rethinking Centered Kernel Alignment in Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2401.11824v1
- Date: Mon, 22 Jan 2024 10:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:33:47.479485
- Title: Rethinking Centered Kernel Alignment in Knowledge Distillation
- Title(参考訳): 知識蒸留における中心核アライメント再考
- Authors: Zikai Zhou, Yunhang Shen, Shitong Shao, Huanran Chen, Linrui Gong,
Shaohui Lin
- Abstract要約: CKA(Centered Kernel Alignment)は、表現の類似性を測定するために広く用いられ、いくつかの知識蒸留法に応用されている。
本稿ではまず,CKAを最大平均離散値(MMD)の上界と定数項に分解するCKAの有効性を理論的に説明する。
本稿では,CKA と MMD の接続を事実上確立する新しい関係中心カーネルアライメント (RCKA) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.725894431909587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation has emerged as a highly effective method for bridging
the representation discrepancy between large-scale models and lightweight
models. Prevalent approaches involve leveraging appropriate metrics to minimize
the divergence or distance between the knowledge extracted from the teacher
model and the knowledge learned by the student model. Centered Kernel Alignment
(CKA) is widely used to measure representation similarity and has been applied
in several knowledge distillation methods. However, these methods are complex
and fail to uncover the essence of CKA, thus not answering the question of how
to use CKA to achieve simple and effective distillation properly. This paper
first provides a theoretical perspective to illustrate the effectiveness of
CKA, which decouples CKA to the upper bound of Maximum Mean Discrepancy~(MMD)
and a constant term. Drawing from this, we propose a novel Relation-Centered
Kernel Alignment~(RCKA) framework, which practically establishes a connection
between CKA and MMD. Furthermore, we dynamically customize the application of
CKA based on the characteristics of each task, with less computational source
yet comparable performance than the previous methods. The extensive experiments
on the CIFAR-100, ImageNet-1k, and MS-COCO demonstrate that our method achieves
state-of-the-art performance on almost all teacher-student pairs for image
classification and object detection, validating the effectiveness of our
approaches.
- Abstract(参考訳): 知識蒸留は大規模モデルと軽量モデル間の表現の不一致を橋渡しする非常に効果的な方法として登場した。
代表的なアプローチは、教師モデルから抽出された知識と学生モデルによって学習された知識のばらつきや距離を最小化するために適切なメトリクスを活用することである。
中心核アライメント(cka)は表現の類似性を測定するために広く使われており、いくつかの知識蒸留法に応用されている。
しかし、これらの手法は複雑であり、CKAの本質を明らかにすることができないため、CKAをいかにしてシンプルで効果的な蒸留を適切に行うかという疑問に答えることができない。
本稿ではまず,CKAを最大平均離散値~(MMD)の上界と定数項に分解するCKAの有効性を説明する理論的視点を提供する。
そこで本研究では,CKAとMDDの相互接続を実質的に確立する,リレーショナル中心カーネルアライメント~(RCKA)フレームワークを提案する。
さらに,各タスクの特性に基づいてckaの適用を動的にカスタマイズし,従来の手法と同等の性能を持つ計算ソースを削減した。
CIFAR-100, ImageNet-1k, MS-COCOの広範囲な実験により, 画像分類とオブジェクト検出のためのほぼすべての教師と学生のペアに対して, 最先端のパフォーマンスを実現し, 提案手法の有効性を検証した。
関連論文リスト
- TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。
本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Structural Knowledge Distillation for Object Detection [2.690687471762886]
構造的類似性(SSIM)に基づく画素単位独立lp-normの置き換えを提案する。
本手法は計算オーバーヘッドが少なく,実装が容易であると同時に,標準の lp-norm を著しく上回っている。
論文 参考訳(メタデータ) (2022-11-23T17:06:52Z) - Reliability of CKA as a Similarity Measure in Deep Learning [17.555458413538233]
我々はCKA感度を多種多様な単純な変換に特徴付ける分析を行う。
CKA類似度測定のいくつかの弱点について検討し、予期せぬ結果や反直感的な結果をもたらす状況を示す。
以上の結果から,CKAの値はモデルの機能的振る舞いにかなりの変化を伴わずに容易に操作できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T14:32:52Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - Online Knowledge Distillation for Efficient Pose Estimation [37.81478634850458]
一段階的に人間の詩構造知識を蒸留し,新しいオンライン知識蒸留フレームワークについて検討する。
OKDHPは単一のマルチブランチネットワークをトレーニングし、予測されたヒートマップをそれぞれ取得する。
画素ワイドのKullback-Leibler分散を利用して、対象ヒートマップと予測値との差を最小限に抑える。
論文 参考訳(メタデータ) (2021-08-04T14:49:44Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。