論文の概要: An Information-rich Sampling Technique over Spatio-Temporal CNN for
Classification of Human Actions in Videos
- arxiv url: http://arxiv.org/abs/2002.02100v2
- Date: Fri, 7 Feb 2020 06:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 10:02:19.637054
- Title: An Information-rich Sampling Technique over Spatio-Temporal CNN for
Classification of Human Actions in Videos
- Title(参考訳): ビデオ中の人間の行動分類のための時空間CNNを用いた情報豊富なサンプリング手法
- Authors: S.H. Shabbeer Basha, Viswanath Pulabaigari, Snehasis Mukherjee
- Abstract要約: 本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。
本稿では,3次元CNNアーキテクチャを用いて特徴量抽出を行い,人間の行動を認識するためのLong Short-Term Memory (LSTM) について述べる。
KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。
- 参考スコア(独自算出の注目度): 5.414308305392762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel scheme for human action recognition in videos, using a
3-dimensional Convolutional Neural Network (3D CNN) based classifier.
Traditionally in deep learning based human activity recognition approaches,
either a few random frames or every $k^{th}$ frame of the video is considered
for training the 3D CNN, where $k$ is a small positive integer, like 4, 5, or
6. This kind of sampling reduces the volume of the input data, which speeds-up
training of the network and also avoids over-fitting to some extent, thus
enhancing the performance of the 3D CNN model. In the proposed video sampling
technique, consecutive $k$ frames of a video are aggregated into a single frame
by computing a Gaussian-weighted summation of the $k$ frames. The resulting
frame (aggregated frame) preserves the information in a better way than the
conventional approaches and experimentally shown to perform better. In this
paper, a 3D CNN architecture is proposed to extract the spatio-temporal
features and follows Long Short-Term Memory (LSTM) to recognize human actions.
The proposed 3D CNN architecture is capable of handling the videos where the
camera is placed at a distance from the performer. Experiments are performed
with KTH and WEIZMANN human actions datasets, whereby it is shown to produce
comparable results with the state-of-the-art techniques.
- Abstract(参考訳): 本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。
従来、ディープラーニングに基づく人間の活動認識アプローチでは、ビデオのランダムフレームまたは各$k^{th}$フレームが3D CNNのトレーニングのために考慮され、$k$は4、5、6のような小さな正の整数である。
この種のサンプリングは、ネットワークのトレーニングを高速化し、ある程度の過度な適合を回避し、3D CNNモデルの性能を向上する入力データの量を削減する。
提案するビデオサンプリング手法では,k$フレームのガウス重み付き和を計算し,連続するk$フレームを1フレームに集約する。
得られたフレーム(集約フレーム)は、従来の手法よりも優れた方法で情報を保存し、実験によりより良い性能を示す。
本稿では,3次元CNNアーキテクチャを用いて時空間の特徴を抽出し,人間の行動を認識するためにLong Short-Term Memory (LSTM) に従う。
提案した3D CNNアーキテクチャは、カメラがパフォーマーから離れた位置に置かれているビデオを扱うことができる。
KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。
関連論文リスト
- F4D: Factorized 4D Convolutional Neural Network for Efficient
Video-level Representation Learning [4.123763595394021]
既存の3D畳み込みニューラルネットワーク(CNN)ベースのビデオレベルの表現学習方法は、クリップベースである。
本稿では,より効果的で細かな時間的映像表現を学習できる,注意力のある分解型4D CNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-28T19:21:57Z) - Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition [25.364148451584356]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。
我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-03-05T15:11:53Z) - Intelligent 3D Network Protocol for Multimedia Data Classification using
Deep Learning [0.0]
我々はSTIPと3D CNNの機能を組み合わせたハイブリッドディープラーニングアーキテクチャを実装し、3Dビデオのパフォーマンスを効果的に向上させる。
その結果,UCF101の動作認識のための文献から得られた最新のフレームワークを95%の精度で比較した。
論文 参考訳(メタデータ) (2022-07-23T12:24:52Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Would Mega-scale Datasets Further Enhance Spatiotemporal 3D CNNs? [18.95620388632382]
ディープニューラルネットワークの初期において、ビデオ認識の文脈では、2D CNNは3D CNNよりも優れていた。
最近の研究では、3D CNNが大規模なビデオデータセットでトレーニングされた2D CNNより優れていることが判明した。
論文 参考訳(メタデータ) (2020-04-10T09:44:19Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。