論文の概要: CanKD: Cross-Attention-based Non-local operation for Feature-based Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2511.21503v1
- Date: Wed, 26 Nov 2025 15:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.168829
- Title: CanKD: Cross-Attention-based Non-local operation for Feature-based Knowledge Distillation
- Title(参考訳): CanKD:特徴量に基づく知識蒸留のためのクロスアテンションに基づく非局所操作
- Authors: Shizhe Sun, Wataru Ohyama,
- Abstract要約: クロスアテンションに基づく非局所知識蒸留(CanKD)
CanKDは、学生フィーチャーマップの各ピクセルを、教師フィーチャーマップ内のすべてのピクセルを動的に考慮することを可能にする。
本手法では,既存の注意誘導蒸留法に比べて優れた性能を発揮するために,損失関数を付加するのみを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Cross-Attention-based Non-local Knowledge Distillation (CanKD), a novel feature-based knowledge distillation framework that leverages cross-attention mechanisms to enhance the knowledge transfer process. Unlike traditional self-attention-based distillation methods that align teacher and student feature maps independently, CanKD enables each pixel in the student feature map to dynamically consider all pixels in the teacher feature map. This non-local knowledge transfer more thoroughly captures pixel-wise relationships, improving feature representation learning. Our method introduces only an additional loss function to achieve superior performance compared with existing attention-guided distillation methods. Extensive experiments on object detection and image segmentation tasks demonstrate that CanKD outperforms state-of-the-art feature and hybrid distillation methods. These experimental results highlight CanKD's potential as a new paradigm for attention-guided distillation in computer vision tasks. Code is available at https://github.com/tori-hotaru/CanKD
- Abstract(参考訳): 本稿では,クロスアテンションに基づく非局所知識蒸留(CanKD)を提案する。
教師の特徴マップと生徒の特徴マップを個別に調整する従来の自己注意型蒸留法とは異なり、CanKDは生徒の特徴マップの各ピクセルを動的に教師の特徴マップ内のすべてのピクセルを考慮できるようにする。
この非局所的な知識伝達は、ピクセルワイドな関係をより徹底的に捉え、特徴表現学習を改善する。
本手法では,既存の注意誘導蒸留法に比べて優れた性能を発揮するために,損失関数を付加するのみを導入する。
物体検出および画像分割タスクに関する広範囲な実験により、CanKDは最先端の特徴とハイブリッド蒸留法より優れていることが示された。
これらの実験結果は、コンピュータビジョンタスクにおける注意誘導蒸留の新しいパラダイムとしてのCanKDの可能性を強調している。
コードはhttps://github.com/tori-hotaru/CanKDで入手できる。
関連論文リスト
- Logit-Based Losses Limit the Effectiveness of Feature Knowledge Distillation [13.970649308150895]
知識蒸留(KD)法は、パラメータ重大教師モデルの知識を軽量の学生モデルに伝達することができる。
特徴に基づく損失のみを用いて,学生の背骨を訓練するための特徴的KDフレームワークを提案する。
我々は,KD法が最先端性能を実現し,標準手法に比べて最大15%の精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-18T23:50:31Z) - SAMKD: Spatial-aware Adaptive Masking Knowledge Distillation for Object Detection [4.33169417430713]
正確な物体検出のための空間認識型適応的マスキング知識蒸留フレームワークを提案する。
本手法は, 学生のネットワークを35.3%から38.8%に改善し, 最先端蒸留法より優れていた。
論文 参考訳(メタデータ) (2025-01-13T07:26:37Z) - LAKD-Activation Mapping Distillation Based on Local Learning [12.230042188890838]
本稿では,新しい知識蒸留フレームワークであるローカル注意知識蒸留(LAKD)を提案する。
LAKDは、教師ネットワークからの蒸留情報をより効率的に利用し、高い解釈性と競争性能を実現する。
CIFAR-10, CIFAR-100, ImageNetのデータセットについて実験を行い, LAKD法が既存手法より有意に優れていたことを示す。
論文 参考訳(メタデータ) (2024-08-21T09:43:27Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Impact of a DCT-driven Loss in Attention-based Knowledge-Distillation
for Scene Recognition [64.29650787243443]
本稿では, アクティベーションマップの2次元周波数変換を転送前に提案し, 解析する。
この戦略は、シーン認識などのタスクにおける知識伝達可能性を高める。
我々は、この論文で使われているトレーニングおよび評価フレームワークを、http://www.vpu.eps.uam.es/publications/DCTBasedKDForSceneRecognitionで公開しています。
論文 参考訳(メタデータ) (2022-05-04T11:05:18Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Knowledge Distillation Using Hierarchical Self-Supervision Augmented
Distribution [1.7718093866806544]
ネットワークをガイドし,より意味のある特徴を学習するための補助的なセルフスーパービジョン拡張タスクを提案する。
従来の知識とは異なり、この分布は、教師付きおよび自己教師型特徴学習からの共同知識を符号化する。
我々はKD法を階層的自己スーパービジョン拡張知識蒸留(HSSAKD)と呼ぶ。
論文 参考訳(メタデータ) (2021-09-07T13:29:32Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。