論文の概要: DVFL-Net: A Lightweight Distilled Video Focal Modulation Network for Spatio-Temporal Action Recognition
- arxiv url: http://arxiv.org/abs/2507.12426v2
- Date: Fri, 18 Jul 2025 14:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 12:36:33.516821
- Title: DVFL-Net: A Lightweight Distilled Video Focal Modulation Network for Spatio-Temporal Action Recognition
- Title(参考訳): DVFL-Net:時空間行動認識のための軽量蒸留ビデオ音声変調ネットワーク
- Authors: Hayat Ullah, Muhammad Ali Shafique, Abbas Khan, Arslan Munir,
- Abstract要約: ビデオ変調ネットワーク(DVFL-Net)は、大規模な事前訓練を受けた教師の知識をナノ学生モデルに抽出する。
我々は,UCF50,UCFMDB,H51,SSV2,KineeticsにおけるDVFL-Netの評価を行った。
その結果、DVFL-Netはメモリと効率の最適なバランス性能を実現し、低使用率、GFLOPの低減、高精度を実現し、リアルタイムHARアプリケーションのための実用的なソリューションとなった。
- 参考スコア(独自算出の注目度): 1.4785166764137887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The landscape of video recognition has evolved significantly, shifting from traditional Convolutional Neural Networks (CNNs) to Transformer-based architectures for improved accuracy. While 3D CNNs have been effective at capturing spatiotemporal dynamics, recent Transformer models leverage self-attention to model long-range spatial and temporal dependencies. Despite achieving state-of-the-art performance on major benchmarks, Transformers remain computationally expensive, particularly with dense video data. To address this, we propose a lightweight Video Focal Modulation Network, DVFL-Net, which distills spatiotemporal knowledge from a large pre-trained teacher into a compact nano student model, enabling efficient on-device deployment. DVFL-Net utilizes knowledge distillation and spatial-temporal feature modulation to significantly reduce computation while preserving high recognition performance. We employ forward Kullback-Leibler (KL) divergence alongside spatio-temporal focal modulation to effectively transfer both local and global context from the Video-FocalNet Base (teacher) to the proposed VFL-Net (student). We evaluate DVFL-Net on UCF50, UCF101, HMDB51, SSV2, and Kinetics-400, benchmarking it against recent state-of-the-art methods in Human Action Recognition (HAR). Additionally, we conduct a detailed ablation study analyzing the impact of forward KL divergence. The results confirm the superiority of DVFL-Net in achieving an optimal balance between performance and efficiency, demonstrating lower memory usage, reduced GFLOPs, and strong accuracy, making it a practical solution for real-time HAR applications.
- Abstract(参考訳): ビデオ認識の展望は、従来の畳み込みニューラルネットワーク(CNN)からトランスフォーマーベースのアーキテクチャへと変化し、精度が向上した。
3次元CNNは時空間のダイナミックスを捉えるのに有効であるが、最近のTransformerモデルは長距離空間および時間依存性をモデル化するために自己アテンションを利用する。
主要なベンチマークで最先端のパフォーマンスを達成したにもかかわらず、トランスフォーマーは計算コストが高いままであり、特に高密度なビデオデータを扱う。
そこで本研究では,大規模教員の時空間的知識をナノ学生モデルに蒸留し,デバイス上での効率的な展開を可能にする,軽量なビデオ音声変調ネットワークDVFL-Netを提案する。
DVFL-Netは、知識蒸留と時空間特性変調を利用して、高い認識性能を維持しながら計算を大幅に削減する。
我々は、時間的焦点変調とともに、KL(Kulback-Leibler)の分岐を利用して、ローカルとグローバルの両方のコンテキストを、Video-FocalNet Base(教師)から提案したVFL-Net(学生)に効果的に転送する。
UCF50, UCF101, HMDB51, SSV2, Kinetics-400 上での DVFL-Net の評価を行い,人間行動認識(HAR)における最近の最先端手法と比較した。
さらに,前向きKLの分岐の影響を詳細に分析した。
その結果、DVFL-Netは、性能と効率の最適バランスを達成し、メモリ使用量の低減、GFLOPの削減、精度の向上を実現し、リアルタイムHARアプリケーションのための実用的なソリューションとなった。
関連論文リスト
- TDS-CLIP: Temporal Difference Side Network for Efficient VideoAction Recognition [22.84073695186728]
本稿では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。
具体的には、動作特徴の局所的な時間差を効果的に捉えることのできる時間差適応器(TD-Adapter)を導入する。
また,ビデオ中のリッチモーション情報を効率的に学習するために,提案するサイドネットワークを誘導するサイドモーション拡張アダプタ(SME-Adapter)を設計した。
論文 参考訳(メタデータ) (2024-08-20T09:40:08Z) - Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation [4.242540533823568]
トランスフォーマーモデルは通常計算に精通し、その軽量モデルにおける有効性は畳み込みと比較して制限される。
本研究では, 最先端変圧器モデルを監督し, 効率的なCNNモデルを構築するために, DisDepth と呼ばれるMDE のクロスアーキテクチャ知識蒸留手法を提案する。
提案手法は, 種々の効率的な背骨に有意な改良を施し, 効率的な単分子深度推定の可能性を示した。
論文 参考訳(メタデータ) (2024-04-25T07:55:47Z) - Streaming Anchor Loss: Augmenting Supervision with Temporal Significance [5.7654216719335105]
様々な音声や知覚信号に対する高速なフレームワイズ応答のためのストリーミングニューラルネットワークモデルは、リソース制約のあるプラットフォームで広く採用されている。
本稿では,学習能力の向上を目的とした新たな損失SAL(Streaming Anchor Loss)を提案する。
論文 参考訳(メタデータ) (2023-10-09T17:28:35Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer [1.876462046907555]
ビデオにおける学習行動のための新しいPSO-ConvNetモデルを提案する。
UCF-101データセットに対する実験結果から,最大9%の精度向上が得られた。
全体として、我々の動的PSO-ConvNetモデルは、人間の行動認識を改善するための有望な方向を提供する。
論文 参考訳(メタデータ) (2023-02-17T23:39:34Z) - STSM: Spatio-Temporal Shift Module for Efficient Action Recognition [4.096670184726871]
本稿では,有効かつ高性能な時空間シフトモジュール(STSM)を提案する。
特に、ネットワークが2次元CNNである場合、STSMモジュールはネットワークが効率的な時空間的特徴を学習できるようにする。
論文 参考訳(メタデータ) (2021-12-05T09:40:49Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。