論文の概要: TSM: Temporal Shift Module for Efficient and Scalable Video
Understanding on Edge Device
- arxiv url: http://arxiv.org/abs/2109.13227v1
- Date: Mon, 27 Sep 2021 17:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 16:56:45.765614
- Title: TSM: Temporal Shift Module for Efficient and Scalable Video
Understanding on Edge Device
- Title(参考訳): TSM:エッジデバイス上での高能率かつスケーラブルなビデオ理解のための時間シフトモジュール
- Authors: Ji Lin, Chuang Gan, Kuan Wang, Song Han
- Abstract要約: 本稿では,高能率かつ高能率な時間シフトモジュール(TSM)を提案する。
TSMは2次元CNNに挿入され、ゼロ計算とゼロパラメータでの時間的モデリングを実現する。
Jetson NanoとGalaxy Note8のオンラインビデオ認識では、74fpsと29fpsのハイフレームレートを実現している。
- 参考スコア(独自算出の注目度): 58.776352999540435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The explosive growth in video streaming requires video understanding at high
accuracy and low computation cost. Conventional 2D CNNs are computationally
cheap but cannot capture temporal relationships; 3D CNN-based methods can
achieve good performance but are computationally intensive. In this paper, we
propose a generic and effective Temporal Shift Module (TSM) that enjoys both
high efficiency and high performance. The key idea of TSM is to shift part of
the channels along the temporal dimension, thus facilitate information
exchanged among neighboring frames. It can be inserted into 2D CNNs to achieve
temporal modeling at zero computation and zero parameters. TSM offers several
unique advantages. Firstly, TSM has high performance; it ranks the first on the
Something-Something leaderboard upon submission. Secondly, TSM has high
efficiency; it achieves a high frame rate of 74fps and 29fps for online video
recognition on Jetson Nano and Galaxy Note8. Thirdly, TSM has higher
scalability compared to 3D networks, enabling large-scale Kinetics training on
1,536 GPUs in 15 minutes. Lastly, TSM enables action concepts learning, which
2D networks cannot model; we visualize the category attention map and find that
spatial-temporal action detector emerges during the training of classification
tasks. The code is publicly available at
https://github.com/mit-han-lab/temporal-shift-module.
- Abstract(参考訳): ビデオストリーミングの爆発的な成長は、高精度で計算コストの低いビデオ理解を必要とする。
従来の2D CNNは計算コストが安いが、時間的関係を捉えることはできない。
本稿では,高効率かつ高性能な時間シフトモジュール(tsm)を提案する。
TSMの鍵となる考え方は、チャネルの一部を時間次元に沿ってシフトさせることで、近隣のフレーム間で交換される情報を促進することである。
2d cnnに挿入することで、ゼロ計算とゼロパラメータで時間モデリングを実現することができる。
TSMにはいくつかの利点がある。
第一に、TSMは高いパフォーマンスを持ち、応募時にSomethingのリーダーボードにランクインする。
第二に、TSMは高効率であり、Jetson NanoとGalaxy Note8のオンラインビデオ認識において、74fpsと29fpsのフレームレートを達成する。
第3に、tsmは3dネットワークに比べてスケーラビリティが高く、15分で1,536gpuで大規模な運動学トレーニングができる。
最後に、TSMは2次元ネットワークではモデル化できないアクション概念の学習を可能にし、カテゴリー注意マップを可視化し、分類タスクのトレーニング中に空間的時間的行動検出が出現することを確認する。
コードはhttps://github.com/mit-han-lab/temporal-shift-moduleで公開されている。
関連論文リスト
- What Can Simple Arithmetic Operations Do for Temporal Modeling? [100.39047523315662]
テンポラルモデリングはビデオコンテンツを理解する上で重要な役割を担っている。
従来の研究は、強力なデバイスの開発により、時系列を通して複雑な時間関係を構築していた。
本研究では,時間的モデリングのための4つの簡単な算術演算の可能性について検討する。
論文 参考訳(メタデータ) (2023-07-18T00:48:56Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - STSM: Spatio-Temporal Shift Module for Efficient Action Recognition [4.096670184726871]
本稿では,有効かつ高性能な時空間シフトモジュール(STSM)を提案する。
特に、ネットワークが2次元CNNである場合、STSMモジュールはネットワークが効率的な時空間的特徴を学習できるようにする。
論文 参考訳(メタデータ) (2021-12-05T09:40:49Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。