論文の概要: Sample-level Adaptive Knowledge Distillation for Action Recognition
- arxiv url: http://arxiv.org/abs/2504.00606v1
- Date: Tue, 01 Apr 2025 10:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:58.998504
- Title: Sample-level Adaptive Knowledge Distillation for Action Recognition
- Title(参考訳): 行動認識のためのサンプルレベルの適応的知識蒸留
- Authors: Ping Li, Chenhao Ping, Wenxiao Wang, Mingli Song,
- Abstract要約: 知識蒸留(KD)は、訓練済みの大規模ネットワーク(教師)から知識を伝達することで、小さなネットワーク(学生)を学習することでニューラルネットワークを圧縮する
本稿では,アクション認識のためのサンプルレベルの適応的知識蒸留フレームワークを提案する。
2つのビデオベンチマークと1つの画像ベンチマークの実験結果から,提案手法の優位性を実証した。
- 参考スコア(独自算出の注目度): 43.35357057084902
- License:
- Abstract: Knowledge Distillation (KD) compresses neural networks by learning a small network (student) via transferring knowledge from a pre-trained large network (teacher). Many endeavours have been devoted to the image domain, while few works focus on video analysis which desires training much larger model making it be hardly deployed in resource-limited devices. However, traditional methods neglect two important problems, i.e., 1) Since the capacity gap between the teacher and the student exists, some knowledge w.r.t. difficult-to-transfer samples cannot be correctly transferred, or even badly affects the final performance of student, and 2) As training progresses, difficult-to-transfer samples may become easier to learn, and vice versa. To alleviate the two problems, we propose a Sample-level Adaptive Knowledge Distillation (SAKD) framework for action recognition. In particular, it mainly consists of the sample distillation difficulty evaluation module and the sample adaptive distillation module. The former applies the temporal interruption to frames, i.e., randomly dropout or shuffle the frames during training, which increases the learning difficulty of samples during distillation, so as to better discriminate their distillation difficulty. The latter module adaptively adjusts distillation ratio at sample level, such that KD loss dominates the training with easy-to-transfer samples while vanilla loss dominates that with difficult-to-transfer samples. More importantly, we only select those samples with both low distillation difficulty and high diversity to train the student model for reducing computational cost. Experimental results on two video benchmarks and one image benchmark demonstrate the superiority of the proposed method by striking a good balance between performance and efficiency.
- Abstract(参考訳): 知識蒸留(KD)は、トレーニング済みの大規模ネットワーク(教師)から知識を伝達することで、小さなネットワーク(学生)を学習することでニューラルネットワークを圧縮する。
画像領域に多くの取り組みが費やされているが、リソース制限されたデバイスに展開し難いような、はるかに大きなモデルをトレーニングしたいというビデオ分析に焦点を当てている作品はほとんどない。
しかし、伝統的な手法は2つの重要な問題を無視している。
1)教師と学生の能力格差が存在するため、学生の最終成績に悪影響を及ぼす、あるいは悪影響を及ぼすような知識は、転校し得ない。
2) 学習が進むにつれて, サンプルの受け渡しが困難になりやすくなり, その逆も困難になる。
この2つの問題を緩和するために,動作認識のためのサンプルレベルの適応的知識蒸留(SAKD)フレームワークを提案する。
特に, 試料蒸留困難評価モジュールと試料適応蒸留モジュールとを主成分とする。
前者は、フレームに時間的割り込み、すなわち、トレーニング中にフレームをランダムにドロップアウトまたはシャッフルすることで、蒸留中のサンプルの学習困難を増大させ、蒸留困難をよりよく識別する。
後者のモジュールは、サンプルレベルでの蒸留比を適応的に調整し、KDの損失が容易に伝達できるサンプルでトレーニングを支配し、バニラの損失が容易に伝達できるサンプルでトレーニングを支配している。
さらに, 蒸留困難度が低い試料と高多様性の試料のみを選択して, 計算コストの低減を図った。
2つのビデオベンチマークと1つの画像ベンチマークによる実験結果は、性能と効率のバランスが良く、提案手法の優位性を実証している。
関連論文リスト
- Small Scale Data-Free Knowledge Distillation [37.708282211941416]
小型データフリーな知識蒸留SSD-KDを提案する。
SSD-KDは、適切なサンプルを選択するために、合成サンプルと優先サンプリング関数のバランスをとる。
非常に少量の合成サンプルで蒸留訓練を行うことができる。
論文 参考訳(メタデータ) (2024-06-12T05:09:41Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples
Discrimination [28.599571524763785]
ラベルノイズ(すなわち不正なデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズとモデル性能を徐々に記憶する。
この問題を解消するために,カリキュラム学習を提案し,学習サンプルを有意義な順序で順序付けすることで,モデル性能と一般化を向上させる。
論文 参考訳(メタデータ) (2022-08-21T13:38:55Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay [5.3330804968579795]
データ自由知識蒸留(Data-Free Knowledge Distillation, KD)は、トレーニングされたニューラルネットワーク(教師)から、元のトレーニングデータがない場合にはよりコンパクトなニューラルネットワーク(学生)への知識伝達を可能にする。
既存の作業では、実際のデータよりも生徒の精度を監視し、プロセス全体を通して最高のパフォーマンスを報告するための検証セットが使用されている。
しかし、蒸留時にも検証データが入手できないため、ピーク精度を達成した生徒のスナップショットを記録することは不可能である。
これは、学生が合成データの分布シフトによって知識劣化を経験するからである。
これまでに観測された合成試料の分布をモデル化する。
論文 参考訳(メタデータ) (2022-01-09T14:14:28Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。