論文の概要: Depthwise Spatio-Temporal STFT Convolutional Neural Networks for Human
Action Recognition
- arxiv url: http://arxiv.org/abs/2007.11365v1
- Date: Wed, 22 Jul 2020 12:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 22:56:40.268070
- Title: Depthwise Spatio-Temporal STFT Convolutional Neural Networks for Human
Action Recognition
- Title(参考訳): ヒト行動認識のための深部時空間STFT畳み込みニューラルネットワーク
- Authors: Sudhakar Kumawat, Manisha Verma, Yuta Nakashima, and Shanmuganathan
Raman
- Abstract要約: 従来の3D畳み込みニューラルネットワーク(CNN)は計算コストが高く、メモリ集約性があり、過度に適合する傾向がある。
本稿では,3次元CNNにおける3次元畳み込み層の代替として機能する新しい畳み込みブロックのクラスを提案する。
Some-something v1, v2, Jester, Diving Kinetics-400, UCF 101, HMDB 51を含む7つの行動認識データセットについて,STFTブロックをベースとした3D CNNが,現状と比較して同等以上の性能で達成可能であることを示す。
- 参考スコア(独自算出の注目度): 42.400429835080416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional 3D convolutional neural networks (CNNs) are computationally
expensive, memory intensive, prone to overfitting, and most importantly, there
is a need to improve their feature learning capabilities. To address these
issues, we propose spatio-temporal short term Fourier transform (STFT) blocks,
a new class of convolutional blocks that can serve as an alternative to the 3D
convolutional layer and its variants in 3D CNNs. An STFT block consists of
non-trainable convolution layers that capture spatially and/or temporally local
Fourier information using a STFT kernel at multiple low frequency points,
followed by a set of trainable linear weights for learning channel
correlations. The STFT blocks significantly reduce the space-time complexity in
3D CNNs. In general, they use 3.5 to 4.5 times less parameters and 1.5 to 1.8
times less computational costs when compared to the state-of-the-art methods.
Furthermore, their feature learning capabilities are significantly better than
the conventional 3D convolutional layer and its variants. Our extensive
evaluation on seven action recognition datasets, including Something-something
v1 and v2, Jester, Diving-48, Kinetics-400, UCF 101, and HMDB 51, demonstrate
that STFT blocks based 3D CNNs achieve on par or even better performance
compared to the state-of-the-art methods.
- Abstract(参考訳): 従来の3d畳み込みニューラルネットワーク(cnns)は計算コストが高く、メモリ集約性が高く、過剰に適合しがちであり、最も重要なのは、機能学習能力を改善する必要があることだ。
これらの問題に対処するため,我々は3d畳み込み層とその変種を3d cnnで置き換えることのできる新しい畳み込みブロックであるstft(spatio-temporal short term fourier transform)ブロックを提案する。
STFTブロックは、複数の低周波数ポイントでSTFTカーネルを使用して空間的および/または時間的に局所的なフーリエ情報をキャプチャする非トレーニング可能な畳み込み層と、チャネル相関を学習するためのトレーニング可能な線形重みのセットから構成される。
STFTブロックは3次元CNNの時空間複雑性を著しく低減する。
一般的には3.5倍から4.5倍のパラメータと1.5倍から1.8倍の計算コストを使用する。
さらに、それらの特徴学習能力は従来の3D畳み込み層とその変種よりも大幅に優れている。
Some-something v1, v2, Jester, Diving-48, Kinetics-400, UCF 101, HMDB 51を含む7つの行動認識データセットについて,STFTブロックをベースとした3D CNNが,最先端の手法と比較して同等あるいはそれ以上の性能を発揮することを示す。
関連論文リスト
- Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski
Engine and Knowledge Distillation Methods [0.0]
本稿では, 知識蒸留技術, 特に3次元深層学習におけるスパーステンソルを応用して, 性能を維持しつつ, モデルサイズを小さくする手法を提案する。
我々は,異なるスパース畳み込みNNの最先端モデルの性能をシミュレートするために,標準的な手法や様々な損失の組み合わせを含む異なる損失関数を分析し,目的を定めている。
論文 参考訳(メタデータ) (2023-05-04T22:19:25Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - In Defense of Image Pre-Training for Spatiotemporal Recognition [32.56468478601864]
画像事前学習を効果的に活用する鍵は、空間的特徴と時間的特徴の学習の分解にある。
新しいパイプラインは、大きなスピードアップを伴うビデオ認識において、常により良い結果を達成する。
論文 参考訳(メタデータ) (2022-05-03T18:45:44Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - CT-Net: Channel Tensorization Network for Video Classification [48.4482794950675]
3D畳み込みはビデオ分類には強力だが、しばしば計算コストがかかる。
ほとんどのアプローチは、畳み込み効率と機能的相互作用の十分性の間の好適なバランスを達成できない。
簡潔で斬新なチャネルネットワーク(CT-Net)を提案する。
我々のCT-Netは、精度および/または効率の点で、最近のSOTAアプローチよりも優れています。
論文 参考訳(メタデータ) (2021-06-03T05:35:43Z) - RANP: Resource Aware Neuron Pruning at Initialization for 3D CNNs [32.054160078692036]
3D CNNを高いスパーシティレベルにプルーンするResource Aware Neuron Pruning (RANP)アルゴリズムを紹介します。
提案アルゴリズムは, FLOPの約50%-95%の削減, メモリの35%-80%の削減を実現している。
論文 参考訳(メタデータ) (2021-02-09T04:35:29Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。