論文の概要: Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition
- arxiv url: http://arxiv.org/abs/2009.06902v1
- Date: Tue, 15 Sep 2020 07:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 06:15:09.480052
- Title: Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition
- Title(参考訳): ビデオ行動認識のためのパラメータ領域とスペクトル領域の協調蒸留
- Authors: Haisheng Su, Jing Su, Dongliang Wang, Weihao Gan, Wei Wu, Mengmeng
Wang, Junjie Yan, Yu Qiao
- Abstract要約: 本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
- 参考スコア(独自算出の注目度): 79.60708268515293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the significant progress of action recognition
task with deep networks. However, most of current video networks require large
memory and computational resources, which hinders their applications in
practice. Existing knowledge distillation methods are limited to the
image-level spatial domain, ignoring the temporal and frequency information
which provide structural knowledge and are important for video analysis. This
paper explores how to train small and efficient networks for action
recognition. Specifically, we propose two distillation strategies in the
frequency domain, namely the feature spectrum and parameter distribution
distillations respectively. Our insight is that appealing performance of action
recognition requires \textit{explicitly} modeling the temporal frequency
spectrum of video features. Therefore, we introduce a spectrum loss that
enforces the student network to mimic the temporal frequency spectrum from the
teacher network, instead of \textit{implicitly} distilling features as many
previous works. Second, the parameter frequency distribution is further adopted
to guide the student network to learn the appearance modeling process from the
teacher. Besides, a collaborative learning strategy is presented to optimize
the training process from a probabilistic view. Extensive experiments are
conducted on several action recognition benchmarks, such as Kinetics,
Something-Something, and Jester, which consistently verify effectiveness of our
approach, and demonstrate that our method can achieve higher performance than
state-of-the-art methods with the same backbone.
- Abstract(参考訳): 近年、ディープネットワークによる行動認識タスクの著しい進歩が目撃されている。
しかし、現在のビデオネットワークのほとんどが大きなメモリと計算リソースを必要とするため、実際の運用を妨げている。
既存の知識蒸留法は画像レベルの空間領域に限定され、構造的知識を提供し、映像解析に重要な時間的・周波数的情報を無視している。
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
具体的には,周波数領域,すなわち特徴スペクトルとパラメータ分布蒸留の2つの蒸留方法を提案する。
私たちの洞察では、アクション認識の魅力的な性能には、ビデオ機能の時間周波数スペクトルをモデル化する \textit{explicitly} が必要です。
そこで,本研究では,教師ネットワークの時間周波数スペクトルを再現するために学生ネットワークを強制するスペクトル損失について紹介する。
第二に、生徒ネットワークを誘導するためにパラメータ頻度分布を更に導入し、教師から外観モデリング過程を学習する。
さらに,確率的視点から学習プロセスを最適化するための協調学習戦略も提示されている。
提案手法の有効性を連続的に検証し, 提案手法が, 同じバックボーンを持つ最先端手法よりも高い性能を達成できることを実証する。
関連論文リスト
- From Actions to Events: A Transfer Learning Approach Using Improved Deep
Belief Networks [1.0554048699217669]
本稿では,エネルギーモデルを用いた行動認識からイベント認識への知識マッピング手法を提案する。
このようなモデルはすべてのフレームを同時に処理し、学習プロセスを通じて空間的および時間的情報を運ぶことができる。
論文 参考訳(メタデータ) (2022-11-30T14:47:10Z) - Class-Incremental Learning for Action Recognition in Videos [44.923719189467164]
ビデオ認識のためのクラス増分学習の文脈において、破滅的な忘れの問題に取り組む。
筆者らのフレームワークは、時間チャンネルの重要度マップを導入し、重要度マップを利用して、入ってくるサンプルの表現を学習することで、この課題に対処する。
提案手法は,UCF101, HMDB51, Some-Something V2データセット上に構築されたクラスインクリメンタルな行動認識ベンチマークを新たに分割する手法である。
論文 参考訳(メタデータ) (2022-03-25T12:15:49Z) - Delta Distillation for Efficient Video Processing [68.81730245303591]
デルタ蒸留と呼ばれる新しい知識蒸留方式を提案する。
ビデオフレーム内の時間的冗長性により,これらの時間的変動を効果的に蒸留できることを実証した。
副産物として、デルタ蒸留は教師モデルの時間的一貫性を向上させる。
論文 参考訳(メタデータ) (2022-03-17T20:13:30Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - On the Post-hoc Explainability of Deep Echo State Networks for Time
Series Forecasting, Image and Video Classification [63.716247731036745]
エコー状態ネットワークは、主に学習アルゴリズムの単純さと計算効率のために、時間を通じて多くのスターを惹きつけてきた。
本研究では,時間系列,画像,映像データを用いた学習タスクに適用した場合のエコー状態ネットワークの説明可能性について検討した。
本研究では,これらの反復モデルが把握した知識に関する理解可能な情報を抽出する3つの手法を提案する。
論文 参考訳(メタデータ) (2021-02-17T08:56:33Z) - Fast Video Salient Object Detection via Spatiotemporal Knowledge
Distillation [20.196945571479002]
本稿では,映像の有能な物体検出に適した軽量ネットワークを提案する。
具体的には,空間的特徴を洗練させるために,サリエンシガイダンスの埋め込み構造と空間知識蒸留を組み合わせた。
時間的側面において,ネットワークが頑健な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。
論文 参考訳(メタデータ) (2020-10-20T04:48:36Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。