論文の概要: Advancing Compressed Video Action Recognition through Progressive Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2407.02713v1
- Date: Tue, 2 Jul 2024 23:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 17:54:48.164610
- Title: Advancing Compressed Video Action Recognition through Progressive Knowledge Distillation
- Title(参考訳): プログレッシブ・ナレッジ蒸留による圧縮映像行動認識の促進
- Authors: Efstathia Soufleri, Deepak Ravikumar, Kaushik Roy,
- Abstract要約: 圧縮ビデオアクション認識は、圧縮されたビデオ、すなわちモーションベクトル、残差、フレーム内の様々なモードを活用することで、ビデオサンプルを分類する。
本稿では,PKD(Progressive Knowledge Distillation)を提案する。PKD(Progressive Knowledge Distillation)は,動きベクトルネットワークから始まる知識を蒸留し,残差を除去し,最後にフレーム内ネットワークを逐次改善し,IC精度を向上する手法である。
実験では,PKDを用いたICのトレーニングの有効性を実証し,ICの精度を最大5.87%,11.42%向上させた。
- 参考スコア(独自算出の注目度): 6.738409533239947
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Compressed video action recognition classifies video samples by leveraging the different modalities in compressed videos, namely motion vectors, residuals, and intra-frames. For this purpose, three neural networks are deployed, each dedicated to processing one modality. Our observations indicate that the network processing intra-frames tend to converge to a flatter minimum than the network processing residuals, which in turn converges to a flatter minimum than the motion vector network. This hierarchy in convergence motivates our strategy for knowledge transfer among modalities to achieve flatter minima, which are generally associated with better generalization. With this insight, we propose Progressive Knowledge Distillation (PKD), a technique that incrementally transfers knowledge across the modalities. This method involves attaching early exits (Internal Classifiers - ICs) to the three networks. PKD distills knowledge starting from the motion vector network, followed by the residual, and finally, the intra-frame network, sequentially improving IC accuracy. Further, we propose the Weighted Inference with Scaled Ensemble (WISE), which combines outputs from the ICs using learned weights, boosting accuracy during inference. Our experiments demonstrate the effectiveness of training the ICs with PKD compared to standard cross-entropy-based training, showing IC accuracy improvements of up to 5.87% and 11.42% on the UCF-101 and HMDB-51 datasets, respectively. Additionally, WISE improves accuracy by up to 4.28% and 9.30% on UCF-101 and HMDB-51, respectively.
- Abstract(参考訳): 圧縮ビデオアクション認識は、圧縮されたビデオ、すなわちモーションベクトル、残差、フレーム内の様々なモードを活用することで、ビデオサンプルを分類する。
この目的のために、3つのニューラルネットワークがデプロイされ、それぞれが1つのモダリティを処理する。
本研究は, フレーム内ネットワーク処理がネットワーク処理残差よりも平らな最小値に収束する傾向にあり, 移動ベクトルネットワークよりも平らな最小値に収束することを示した。
この収束の階層構造は、一般的により一般化に結びついているフラットなミニマを達成するために、モダリティ間の知識伝達の戦略を動機付けている。
そこで本研究では,段階的に知識をモダリティ間で伝達する手法であるプログレッシブ・ナレッジ蒸留(PKD)を提案する。
この方法は3つのネットワークに早期出口(内部分類器 - IC)をアタッチすることを含む。
PKDは、動きベクトルネットワークから始まる知識を蒸留し、次に残留し、最後にフレーム内ネットワークを蒸留し、IC精度を逐次改善する。
さらに、ICからの出力を学習重みで組み合わせ、推論の精度を高めるWeighted Inference with Scaled Ensemble (WISE)を提案する。
実験では,PKDを用いたICのトレーニングの有効性を実証し,UCF-101データセットとHMDB-51データセットのIC精度を最大5.87%,11.42%向上させた。
さらに、WISEはUCF-101とHMDB-51で最大4.28%、9.30%の精度向上を実現している。
関連論文リスト
- ClST: A Convolutional Transformer Framework for Automatic Modulation
Recognition by Knowledge Distillation [23.068233043023834]
本稿では、畳み込み結合型信号変換器(ClST)という新しいニューラルネットワークと、信号知識蒸留(SKD)という新しい知識蒸留法を提案する。
SKDは、ニューラルネットワークのパラメータと複雑さを効果的に削減する知識蒸留法である。
我々は、SKDアルゴリズムであるKD-CNNとKD-MobileNetを使って、2つの軽量ニューラルネットワークをトレーニングし、ニューラルネットワークを小型デバイスで使用できるという要求を満たす。
論文 参考訳(メタデータ) (2023-12-29T03:01:46Z) - A Principled Hierarchical Deep Learning Approach to Joint Image
Compression and Classification [27.934109301041595]
本研究は,エンコーダを誘導し,コンパクトで差別的で,一般的な拡張/変換に適した特徴を抽出する3段階共同学習戦略を提案する。
CIFAR-10では最大1.5%,CIFAR-100では3%,従来のE2Eクロスエントロピートレーニングでは3%の精度向上が得られた。
論文 参考訳(メタデータ) (2023-10-30T15:52:18Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer [1.876462046907555]
ビデオにおける学習行動のための新しいPSO-ConvNetモデルを提案する。
UCF-101データセットに対する実験結果から,最大9%の精度向上が得られた。
全体として、我々の動的PSO-ConvNetモデルは、人間の行動認識を改善するための有望な方向を提供する。
論文 参考訳(メタデータ) (2023-02-17T23:39:34Z) - itKD: Interchange Transfer-based Knowledge Distillation for 3D Object
Detection [3.735965959270874]
本稿では,チャネルワイド圧縮と非圧縮を含むオートエンコーダスタイルのフレームワークを提案する。
教師ネットワークのマップビュー特徴を学習するために、教師ネットワークと学生ネットワークの機能は、共有オートエンコーダを介して独立して渡される。
マルチヘッド自己認識機構によって引き起こされた3次元物体検出情報と一致するように,頭部の注意損失を示す。
論文 参考訳(メタデータ) (2022-05-31T04:25:37Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Channel-wise Knowledge Distillation for Dense Prediction [73.99057249472735]
本稿では,学生ネットワークと教師ネットワークのチャンネルワイズ機能について提案する。
様々なネットワーク構造を持つ3つのベンチマークにおいて、一貫して優れた性能を実現している。
論文 参考訳(メタデータ) (2020-11-26T12:00:38Z) - A Variational Information Bottleneck Based Method to Compress Sequential
Networks for Human Action Recognition [9.414818018857316]
本稿では,人間行動認識(HAR)に用いるリカレントニューラルネットワーク(RNN)を効果的に圧縮する手法を提案する。
変分情報ボトルネック(VIB)理論に基づくプルーニング手法を用いて,RNNの逐次セルを流れる情報の流れを小さなサブセットに制限する。
我々は、圧縮を大幅に改善する特定のグループ・ラッソ正規化手法とプルーニング手法を組み合わせる。
提案手法は,UCF11上での動作認識の精度に比較して,最も近い競合に比べて70倍以上の圧縮を実現する。
論文 参考訳(メタデータ) (2020-10-03T12:41:51Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Training Binary Neural Networks with Real-to-Binary Convolutions [52.91164959767517]
完全精度のネットワークのうち、数パーセント以内にバイナリネットワークをトレーニングする方法を示します。
我々は、最先端の精度をすでに達成している強力なベースラインを構築する方法を示す。
すべての改善をまとめると、提案したモデルは、ImageNet上で5%以上のトップ1精度で、現在の最先端の技術を上回ります。
論文 参考訳(メタデータ) (2020-03-25T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。