論文の概要: 3D Convolutional with Attention for Action Recognition
- arxiv url: http://arxiv.org/abs/2206.02203v1
- Date: Sun, 5 Jun 2022 15:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:17:53.560369
- Title: 3D Convolutional with Attention for Action Recognition
- Title(参考訳): 動作認識のための注意を伴う3次元畳み込み
- Authors: Labina Shrestha, Shikha Dubey, Farrukh Olimov, Muhammad Aasim Rafique,
Moongu Jeon
- Abstract要約: 現在の行動認識法は、計算コストの高いモデルを用いて行動の時間的依存を学習する。
本稿では,3次元畳み込み層,完全連結層,注目層からなる依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案する。
提案手法はまず3D-CNNを用いて行動の空間的特徴と時間的特徴を学習し,その後,注意時間機構によってモデルが本質的な特徴に注意を向けることを支援する。
- 参考スコア(独自算出の注目度): 6.238518976312625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition is one of the challenging tasks in computer vision.
The current action recognition methods use computationally expensive models for
learning spatio-temporal dependencies of the action. Models utilizing RGB
channels and optical flow separately, models using a two-stream fusion
technique, and models consisting of both convolutional neural network (CNN) and
long-short term memory (LSTM) network are few examples of such complex models.
Moreover, fine-tuning such complex models is computationally expensive as well.
This paper proposes a deep neural network architecture for learning such
dependencies consisting of a 3D convolutional layer, fully connected (FC)
layers, and attention layer, which is simpler to implement and gives a
competitive performance on the UCF-101 dataset. The proposed method first
learns spatial and temporal features of actions through 3D-CNN, and then the
attention mechanism helps the model to locate attention to essential features
for recognition.
- Abstract(参考訳): 人間の行動認識はコンピュータビジョンにおける課題の1つである。
現在の行動認識法は、計算コストの高いモデルを用いて行動の時空間依存性を学習する。
RGBチャネルと光フローを別々に利用するモデル、二ストリーム融合を用いたモデル、畳み込みニューラルネットワーク(CNN)と長短短期記憶(LSTM)の両方からなるモデルなどがそのような複雑なモデルの一例である。
さらに、このような複雑なモデルの微調整も計算コストがかかる。
本稿では,3次元畳み込み層,完全連結層(fc層),アテンション層(utf-101データセットにおいて,より実装が容易で競合性能を有する)からなる,そのような依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案する。
提案手法はまず3D-CNNを用いて行動の空間的特徴と時間的特徴を学習し,認識に必要な特徴に注意を向けることを支援する。
関連論文リスト
- Deepfake Detection: Leveraging the Power of 2D and 3D CNN Ensembles [0.0]
本研究は,映像コンテンツの検証に革新的なアプローチを提案する。
この手法は高度な2次元および3次元畳み込みニューラルネットワークをブレンドする。
実験による検証は、この戦略の有効性を強調し、ディープフェイクの発生に対処する可能性を示している。
論文 参考訳(メタデータ) (2023-10-25T06:00:37Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - STSM: Spatio-Temporal Shift Module for Efficient Action Recognition [4.096670184726871]
本稿では,有効かつ高性能な時空間シフトモジュール(STSM)を提案する。
特に、ネットワークが2次元CNNである場合、STSMモジュールはネットワークが効率的な時空間的特徴を学習できるようにする。
論文 参考訳(メタデータ) (2021-12-05T09:40:49Z) - Learning A 3D-CNN and Transformer Prior for Hyperspectral Image
Super-Resolution [80.93870349019332]
本稿では,CNN の代わりに Transformer を用いて HSI の事前学習を行う新しい HSISR 手法を提案する。
具体的には、まず勾配アルゴリズムを用いてHSISRモデルを解き、次に展開ネットワークを用いて反復解過程をシミュレートする。
論文 参考訳(メタデータ) (2021-11-27T15:38:57Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Model-inspired Deep Learning for Light-Field Microscopy with Application
to Neuron Localization [27.247818386065894]
光フィールド顕微鏡画像を用いた高速かつ堅牢なソースの3Dローカリゼーションを実現するモデルに基づくディープラーニング手法を提案する。
これは畳み込みスパース符号化問題を効率的に解くディープネットワークを開発することによって実現される。
光場からのほ乳類ニューロンの局在化実験により,提案手法が性能,解釈性,効率の向上をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-10T16:24:47Z) - Directional Temporal Modeling for Action Recognition [24.805397801876687]
本稿では,局所的特徴間の時間的進化をモデル化するチャネル独立指向性畳み込み(CIDC)操作を提案する。
当社のCIDCネットワークは,任意のアクティビティ認識バックボーンネットワークにアタッチ可能である。
論文 参考訳(メタデータ) (2020-07-21T18:49:57Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z) - Interpreting video features: a comparison of 3D convolutional networks
and convolutional LSTM networks [1.462434043267217]
我々は3次元畳み込みネットワークと畳み込みLSTMネットワークが時間依存のフレーム間でどのように特徴を学習するかを比較する。
以上の結果から,3次元畳み込みモデルは入力シーケンス内の短い事象に集中し,空間的焦点を少ない連続した領域に配置することが示唆された。
論文 参考訳(メタデータ) (2020-02-02T11:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。