論文の概要: Revisiting Cross-Architecture Distillation: Adaptive Dual-Teacher Transfer for Lightweight Video Models
- arxiv url: http://arxiv.org/abs/2511.09469v1
- Date: Thu, 13 Nov 2025 01:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.584033
- Title: Revisiting Cross-Architecture Distillation: Adaptive Dual-Teacher Transfer for Lightweight Video Models
- Title(参考訳): クロスアーキテクチャ蒸留の再検討:軽量ビデオモデルのための適応型デュアル教師転送
- Authors: Ying Peng, Hongsen Ye, Changxin Huang, Xiping Hu, Jian Chen, Runhao Zeng,
- Abstract要約: クロスアーキテクチャ知識蒸留(CAKD)は、知識をViTからCNNに転送することでこの問題に対処する。
異種 ViT 教師と同種 CNN 教師の双方を利用した 2 つの教員知識蒸留フレームワークを提案する。
我々の方法は、常に最先端の蒸留手法より優れています。
- 参考スコア(独自算出の注目度): 23.54434747665913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have achieved strong performance in video action recognition, but their high computational cost limits their practicality. Lightweight CNNs are more efficient but suffer from accuracy gaps. Cross-Architecture Knowledge Distillation (CAKD) addresses this by transferring knowledge from ViTs to CNNs, yet existing methods often struggle with architectural mismatch and overlook the value of stronger homogeneous CNN teachers. To tackle these challenges, we propose a Dual-Teacher Knowledge Distillation framework that leverages both a heterogeneous ViT teacher and a homogeneous CNN teacher to collaboratively guide a lightweight CNN student. We introduce two key components: (1) Discrepancy-Aware Teacher Weighting, which dynamically fuses the predictions from ViT and CNN teachers by assigning adaptive weights based on teacher confidence and prediction discrepancy with the student, enabling more informative and effective supervision; and (2) a Structure Discrepancy-Aware Distillation strategy, where the student learns the residual features between ViT and CNN teachers via a lightweight auxiliary branch, focusing on transferable architectural differences without mimicking all of ViT's high-dimensional patterns. Extensive experiments on benchmarks including HMDB51, EPIC-KITCHENS-100, and Kinetics-400 demonstrate that our method consistently outperforms state-of-the-art distillation approaches, achieving notable performance improvements with a maximum accuracy gain of 5.95% on HMDB51.
- Abstract(参考訳): ヴィジュアルトランスフォーマー(ViT)は、ビデオアクション認識において高い性能を達成しているが、その高い計算コストは、その実用性を制限する。
軽量CNNはより効率的だが、精度のギャップに悩まされている。
クロスアーキテクチャ知識蒸留(CAKD)は、ViTからCNNに知識を移すことによってこの問題に対処するが、既存の手法はアーキテクチャ上のミスマッチに悩まされ、より強力な同質なCNN教師の価値を見落としている。
このような課題に対処するために、異質なViT教師と同質なCNN教師の両方を活用して、軽量なCNN学生を協調指導するDual-Teacher Knowledge Distillationフレームワークを提案する。
1)教師の信頼と予測の一致に基づいて適応的な重み付けを割り当て、より情報的かつ効果的な指導を可能にすることによる、ViTとCNNの教師の予測を動的に融合させ、(2)教師とCNNの教師の残像を軽量補助ブランチで学習し、VTの高次元パターンをすべて模倣することなく、伝達可能な建築上の相違に焦点をあてる構造的離散性意識蒸留戦略を導入する。
HMDB51, EPIC-KITCHENS-100, Kinetics-400 などのベンチマーク実験により, 従来の蒸留法よりも高い性能を示し, HMDB51 の最大精度が5.95%向上した。
関連論文リスト
- HDKD: Hybrid Data-Efficient Knowledge Distillation Network for Medical Image Classification [0.0]
ビジョントランスフォーマー(ViT)は、強力なモデリング能力のため、コンピュータビジョンタスクにおいて大きな進歩を遂げている。
知識蒸留(KD)への以前のアプローチは、CNNの教師からViTの学生へのロジット分布の蒸留に焦点を絞った2つの主要な経路を追求してきた。
本稿では,CNN教師とハイブリッド学生を併用したHybrid Data- efficient Knowledge Distillation(HDKD)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-07-10T10:09:12Z) - Object-Centric Diffusion for Efficient Video Editing [64.71639719352636]
拡散ベースのビデオ編集は素晴らしい品質に達している。
このようなソリューションは通常、時間的に整合性のあるフレームを生成するために重いメモリと計算コストを発生させる。
品質を維持しつつ、大幅なスピードアップを可能にする修正を提案する。
論文 参考訳(メタデータ) (2024-01-11T08:36:15Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Distilling Efficient Vision Transformers from CNNs for Semantic
Segmentation [12.177329445930276]
我々はC2VKDと呼ばれる新しいCNN-to-ViT KDフレームワークを提案する。
まず視覚的特徴蒸留(VLFD)モジュールを提案する。
そこで我々は,ラベルと教師の予測とを併用して学生を監督する,画素ワイド・デカップリング蒸留(PDD)モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:45:37Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - A Good Student is Cooperative and Reliable: CNN-Transformer
Collaborative Learning for Semantic Segmentation [8.110815355364947]
我々は,CNNベースのモデルとViTベースのモデルを同時に学習できるオンライン知識蒸留(KD)フレームワークを提案する。
提案手法は,最先端のオンライン蒸留法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-24T07:46:06Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Cross-Architecture Knowledge Distillation [32.689574589575244]
Transformerから畳み込みニューラルネットワーク(CNN)への補完的知識の蒸留は自然である
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
提案手法は,小規模データセットと大規模データセットの両方において,14の最先端データを出力する。
論文 参考訳(メタデータ) (2022-07-12T02:50:48Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。