論文の概要: STSM: Spatio-Temporal Shift Module for Efficient Action Recognition
- arxiv url: http://arxiv.org/abs/2112.02523v1
- Date: Sun, 5 Dec 2021 09:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:34:05.005437
- Title: STSM: Spatio-Temporal Shift Module for Efficient Action Recognition
- Title(参考訳): STSM: 効率的な行動認識のための時空間シフトモジュール
- Authors: Zhaoqilin Yang, Gaoyun An
- Abstract要約: 本稿では,有効かつ高性能な時空間シフトモジュール(STSM)を提案する。
特に、ネットワークが2次元CNNである場合、STSMモジュールはネットワークが効率的な時空間的特徴を学習できるようにする。
- 参考スコア(独自算出の注目度): 4.096670184726871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The modeling, computational cost, and accuracy of traditional Spatio-temporal
networks are the three most concentrated research topics in video action
recognition. The traditional 2D convolution has a low computational cost, but
it cannot capture the time relationship; the convolutional neural networks
(CNNs) model based on 3D convolution can obtain good performance, but its
computational cost is high, and the amount of parameters is large. In this
paper, we propose a plug-and-play Spatio-temporal Shift Module (STSM), which is
a generic module that is both effective and high-performance. Specifically,
after STSM is inserted into other networks, the performance of the network can
be improved without increasing the number of calculations and parameters. In
particular, when the network is 2D CNNs, our STSM module allows the network to
learn efficient Spatio-temporal features. We conducted extensive evaluations of
the proposed module, conducted numerous experiments to study its effectiveness
in video action recognition, and achieved state-of-the-art results on the
kinetics-400 and Something-Something V2 datasets.
- Abstract(参考訳): 従来の時空間ネットワークのモデリング、計算コスト、精度は、ビデオアクション認識において最も集中した3つの研究トピックである。
3次元畳み込みに基づく畳み込みニューラルネットワーク(cnns)モデルは良好な性能を得ることができるが、計算コストは高く、パラメータの量は大きい。
本稿では,有効かつ高性能な汎用モジュールであるstsm(plug-and-play spatio-temporal shift module)を提案する。
具体的には、STSMを他のネットワークに挿入すると、演算数やパラメータを増やすことなくネットワークの性能を向上させることができる。
特に、ネットワークが2次元CNNである場合、STSMモジュールはネットワークが効率的な時空間的特徴を学習できるようにする。
我々は,提案モジュールの広範囲な評価を行い,ビデオ行動認識におけるその有効性を検討するために多数の実験を行い,速度論-400およびSomething V2データセットの最先端結果を得た。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Exploring Quantization and Mapping Synergy in Hardware-Aware Deep Neural Network Accelerators [0.20971479389679332]
CNN推論アクセラレータに実装された畳み込みニューラルネットワーク(CNN)のエネルギー効率とメモリフットプリントは多くの要因に依存する。
実装中にリッチな混合量子化スキームを有効にすることで、以前に隠れていたマッピングの空間を開放できることが示される。
量子化重みとアクティベーションと適切なマッピングを利用するCNNは、精度、エネルギ、メモリ要求間のトレードオフを大幅に改善することができる。
論文 参考訳(メタデータ) (2024-04-08T10:10:30Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - 3D Convolutional with Attention for Action Recognition [6.238518976312625]
現在の行動認識法は、計算コストの高いモデルを用いて行動の時間的依存を学習する。
本稿では,3次元畳み込み層,完全連結層,注目層からなる依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案する。
提案手法はまず3D-CNNを用いて行動の空間的特徴と時間的特徴を学習し,その後,注意時間機構によってモデルが本質的な特徴に注意を向けることを支援する。
論文 参考訳(メタデータ) (2022-06-05T15:12:57Z) - TSM: Temporal Shift Module for Efficient and Scalable Video
Understanding on Edge Device [58.776352999540435]
本稿では,高能率かつ高能率な時間シフトモジュール(TSM)を提案する。
TSMは2次元CNNに挿入され、ゼロ計算とゼロパラメータでの時間的モデリングを実現する。
Jetson NanoとGalaxy Note8のオンラインビデオ認識では、74fpsと29fpsのハイフレームレートを実現している。
論文 参考訳(メタデータ) (2021-09-27T17:59:39Z) - CT-Net: Channel Tensorization Network for Video Classification [48.4482794950675]
3D畳み込みはビデオ分類には強力だが、しばしば計算コストがかかる。
ほとんどのアプローチは、畳み込み効率と機能的相互作用の十分性の間の好適なバランスを達成できない。
簡潔で斬新なチャネルネットワーク(CT-Net)を提案する。
我々のCT-Netは、精度および/または効率の点で、最近のSOTAアプローチよりも優れています。
論文 参考訳(メタデータ) (2021-06-03T05:35:43Z) - Physics Validation of Novel Convolutional 2D Architectures for Speeding
Up High Energy Physics Simulations [0.0]
本稿では,GAN(Geneversarative Adrial Networks)をディープラーニング技術として応用し,温度計検出器シミュレーションを代替する。
我々は,同じ3次元画像生成問題を高速に解くために,新しい2次元畳み込みネットワークを開発した。
その結果,物理精度が向上し,高速検出器シミュレーションにおけるGANの利用がさらに強化された。
論文 参考訳(メタデータ) (2021-05-19T07:24:23Z) - ACTION-Net: Multipath Excitation for Action Recognition [22.12530692711095]
提案したAction-Netに2D CNNを装備し、計算コストを極端に制限したシンプルなACTION-Netを形成する。
ACTION-Netは、3つのバックボーン上で2D CNNよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-03-11T16:23:40Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。