論文の概要: No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding
- arxiv url: http://arxiv.org/abs/2405.08344v1
- Date: Tue, 14 May 2024 06:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 14:58:01.182185
- Title: No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding
- Title(参考訳): 時間を無駄にしない: モバイルビデオ理解のためのチャンネルに時間を割く
- Authors: Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang,
- Abstract要約: 我々は,ビデオシーケンスの時間軸をチャネル次元に絞り込み,モバイルビデオ理解のための軽量なビデオ認識ネットワークであるtextitSqueezeTime を提案する。
提案されているSqueezeTimeは、非常に軽量で高速で、モバイルビデオ理解の精度が高い。
- 参考スコア(独自算出の注目度): 38.60950616529459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current architectures for video understanding mainly build upon 3D convolutional blocks or 2D convolutions with additional operations for temporal modeling. However, these methods all regard the temporal axis as a separate dimension of the video sequence, which requires large computation and memory budgets and thus limits their usage on mobile devices. In this paper, we propose to squeeze the time axis of a video sequence into the channel dimension and present a lightweight video recognition network, term as \textit{SqueezeTime}, for mobile video understanding. To enhance the temporal modeling capability of the proposed network, we design a Channel-Time Learning (CTL) Block to capture temporal dynamics of the sequence. This module has two complementary branches, in which one branch is for temporal importance learning and another branch with temporal position restoring capability is to enhance inter-temporal object modeling ability. The proposed SqueezeTime is much lightweight and fast with high accuracies for mobile video understanding. Extensive experiments on various video recognition and action detection benchmarks, i.e., Kinetics400, Kinetics600, HMDB51, AVA2.1 and THUMOS14, demonstrate the superiority of our model. For example, our SqueezeTime achieves $+1.2\%$ accuracy and $+80\%$ GPU throughput gain on Kinetics400 than prior methods. Codes are publicly available at https://github.com/xinghaochen/SqueezeTime and https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
- Abstract(参考訳): ビデオ理解のための現在のアーキテクチャは、主に3次元の畳み込みブロックまたは2次元の畳み込みの上に構築され、時間的モデリングのための追加の操作がある。
しかし、これらの手法はすべて、時間軸をビデオシーケンスの別次元とみなし、大きな計算とメモリ予算を必要とし、モバイルデバイス上での使用を制限する。
本稿では,ビデオシーケンスの時間軸をチャネル次元に絞り込み,モバイルビデオ理解のための軽量なビデオ認識ネットワークである「textit{SqueezeTime}」を提案する。
提案するネットワークの時間的モデリング能力を高めるために,シーケンスの時間的ダイナミクスを捉えるためにチャネル時間学習ブロック(CTL)を設計する。
このモジュールは2つの補完的なブランチを持ち、1つのブランチは時間的重要度学習のためのものであり、もう1つのブランチは時間的位置復元能力を持つ。
提案されているSqueezeTimeは、非常に軽量で高速で、モバイルビデオ理解の精度が高い。
Kinetics400, Kinetics600, HMDB51, AVA2.1, THUMOS14 など,様々なビデオ認識および行動検出ベンチマークの大規模な実験により, モデルの優位性を実証した。
例えば、私たちのSqueezeTimeは、Kinetics400で以前の方法よりも$+1.2\%の精度と$+80\%のGPUスループットを達成しています。
コードはhttps://github.com/xinghaochen/SqueezeTimeとhttps://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTimeで公開されている。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - $R^2$-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding [41.69321731689751]
ビデオの時間的グラウンドは、自然言語のクェリが与えられたビデオに関連性のあるクリップを埋めることを目的としている。
既存のVTGモデルは、フレームワイドのファイナルレイヤCLIP機能に基づいて構築されており、追加の時間バックボーンによって支援されている。
ビデオ時間的グラウンド化のためのパラメータとメモリ効率の変換学習フレームワークであるReversed Recurrent Tuning(R2$-Tuning)を提案する。
論文 参考訳(メタデータ) (2024-03-31T21:17:48Z) - What Can Simple Arithmetic Operations Do for Temporal Modeling? [100.39047523315662]
テンポラルモデリングはビデオコンテンツを理解する上で重要な役割を担っている。
従来の研究は、強力なデバイスの開発により、時系列を通して複雑な時間関係を構築していた。
本研究では,時間的モデリングのための4つの簡単な算術演算の可能性について検討する。
論文 参考訳(メタデータ) (2023-07-18T00:48:56Z) - Real-time Online Video Detection with Temporal Smoothing Transformers [4.545986838009774]
優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。
この問題に対処するため、カーネルのレンズを通してビデオトランスのクロスアテンションを再構成する。
テンポラルスムース変換器であるTeSTraを構築し、キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。
論文 参考訳(メタデータ) (2022-09-19T17:59:02Z) - DSANet: Dynamic Segment Aggregation Network for Video-Level
Representation Learning [29.182482776910152]
我々は,ビデオ認識の重要な側面として,動力学的・短距離時間モデリングを考案した。
本稿では,スニペット間の関係を捉えるための動的セグメンテーションアグリゲーション(DSA)モジュールを提案する。
提案するDSAモジュールは,様々なビデオ認識モデルに有益であることを示す。
論文 参考訳(メタデータ) (2021-05-25T17:09:57Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。