論文の概要: ACAM-KD: Adaptive and Cooperative Attention Masking for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2503.06307v1
- Date: Sat, 08 Mar 2025 18:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:06.863929
- Title: ACAM-KD: Adaptive and Cooperative Attention Masking for Knowledge Distillation
- Title(参考訳): ACAM-KD : 知識蒸留のための適応的・協調的意識マスキング
- Authors: Qizhen Lan, Qing Tian,
- Abstract要約: ACAM-KDは蒸留プロセス全体を通して学生の要求に適応する。
これにより、最先端技術よりも1.4mAPまでのオブジェクト検出性能が向上する。
Cityscapesのセマンティックセグメンテーションでは、ベースライン上でmIoUを3.09アップする。
- 参考スコア(独自算出の注目度): 2.7624021966289605
- License:
- Abstract: Dense visual prediction tasks, such as detection and segmentation, are crucial for time-critical applications (e.g., autonomous driving and video surveillance). While deep models achieve strong performance, their efficiency remains a challenge. Knowledge distillation (KD) is an effective model compression technique, but existing feature-based KD methods rely on static, teacher-driven feature selection, failing to adapt to the student's evolving learning state or leverage dynamic student-teacher interactions. To address these limitations, we propose Adaptive student-teacher Cooperative Attention Masking for Knowledge Distillation (ACAM-KD), which introduces two key components: (1) Student-Teacher Cross-Attention Feature Fusion (STCA-FF), which adaptively integrates features from both models for a more interactive distillation process, and (2) Adaptive Spatial-Channel Masking (ASCM), which dynamically generates importance masks to enhance both spatial and channel-wise feature selection. Unlike conventional KD methods, ACAM-KD adapts to the student's evolving needs throughout the entire distillation process. Extensive experiments on multiple benchmarks validate its effectiveness. For instance, on COCO2017, ACAM-KD improves object detection performance by up to 1.4 mAP over the state-of-the-art when distilling a ResNet-50 student from a ResNet-101 teacher. For semantic segmentation on Cityscapes, it boosts mIoU by 3.09 over the baseline with DeepLabV3-MobileNetV2 as the student model.
- Abstract(参考訳): 検出やセグメンテーションなどの複雑な視覚予測タスクは、時間クリティカルなアプリケーション(例えば、自動運転やビデオ監視)に不可欠である。
ディープモデルは高いパフォーマンスを達成するが、その効率性は依然として課題である。
知識蒸留(KD)は効果的なモデル圧縮手法であるが、既存の特徴に基づくKD法は静的な教師主導の特徴選択に依存しており、生徒の進化する学習状態に適応しなかったり、動的学生と教師の相互作用を利用したりしている。
これらの制約に対処するため,(1)学生・教師のクロス・アテンション・フィーチャー・フュージョン(STCA-FF)と(2)重要マスキングを動的に生成し,空間的・チャネル的特徴選択を動的に強化する適応型空間シャンネル・マスキング(ASCM)という2つの重要な要素を取り入れた適応型学生・教師協調意識マスキング(ACAM-KD)を提案する。
従来のKD法とは異なり、ACAM-KDは蒸留プロセス全体を通して学生の要求に適応する。
複数のベンチマークに関する大規模な実験は、その有効性を検証する。
例えば、COCO2017では、ACAM-KDはResNet-101の教師からResNet-50の学生を蒸留する際に、最先端技術よりも1.4mAPまでオブジェクト検出性能を向上させる。
Cityscapesのセマンティックセグメンテーションでは、DeepLabV3-MobileNetV2を学生モデルとしてベースラインでmIoUを3.09アップする。
関連論文リスト
- TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation [4.242540533823568]
トランスフォーマーモデルは通常計算に精通し、その軽量モデルにおける有効性は畳み込みと比較して制限される。
本研究では, 最先端変圧器モデルを監督し, 効率的なCNNモデルを構築するために, DisDepth と呼ばれるMDE のクロスアーキテクチャ知識蒸留手法を提案する。
提案手法は, 種々の効率的な背骨に有意な改良を施し, 効率的な単分子深度推定の可能性を示した。
論文 参考訳(メタデータ) (2024-04-25T07:55:47Z) - Align-to-Distill: Trainable Attention Alignment for Knowledge Distillation in Neural Machine Translation [3.759878064139572]
本稿では,機能マッピング問題に対処するためのA2D(Align-to-Distill)戦略を紹介する。
実験の結果,WMT-2022->DsbおよびWMT-2014 En->Deに対して,最大3.61点,+0.63点のBLEU値が得られた。
論文 参考訳(メタデータ) (2024-03-03T11:13:44Z) - Augmentation-Free Dense Contrastive Knowledge Distillation for Efficient
Semantic Segmentation [16.957139277317005]
Af-DCD(Augmentation-free Dense Contrastive Knowledge Distillation)は、新しいコントラスト蒸留学習パラダイムである。
Af-DCDはセマンティックセグメンテーションのためのコンパクトで正確なディープニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2023-12-07T09:37:28Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - A Simple and Generic Framework for Feature Distillation via Channel-wise
Transformation [35.233203757760066]
学習可能な非線形チャネルワイズ変換を提案し,教師モデルと生徒の特徴を一致させる。
本手法は,様々なコンピュータビジョンタスクにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2023-03-23T12:13:29Z) - AMD: Adaptive Masked Distillation for Object [8.668808292258706]
本研究では,物体検出のための空間チャネル適応型マスク蒸留(AMD)ネットワークを提案する。
学生のネットワークチャネルを適応させるために、シンプルで効率的なモジュールを使用します。
提案手法により, 学生ネットワークは41.3%, 42.4%, 42.7%mAPスコアを報告した。
論文 参考訳(メタデータ) (2023-01-31T10:32:13Z) - G-DetKD: Towards General Distillation Framework for Object Detectors via
Contrastive and Semantic-guided Feature Imitation [49.421099172544196]
そこで本研究では,すべてのピラミッドレベルにまたがる特徴ペア間のソフトマッチングを自動的に行う,意味誘導型特徴模倣手法を提案する。
また,異なる特徴領域間の関係で符号化された情報を効果的に捉えるために,コントラスト蒸留を導入する。
本手法は,(1)フレームワークのコンポーネントを別々に使用した場合に,既存の検出KD技術よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2021-08-17T07:44:27Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。