論文の概要: Short-Term Temporal Convolutional Networks for Dynamic Hand Gesture
Recognition
- arxiv url: http://arxiv.org/abs/2001.05833v1
- Date: Tue, 31 Dec 2019 23:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 21:19:10.341017
- Title: Short-Term Temporal Convolutional Networks for Dynamic Hand Gesture
Recognition
- Title(参考訳): 動的ハンドジェスチャ認識のための短時間時間畳み込みネットワーク
- Authors: Yi Zhang, Chong Wang, Ye Zheng, Jieyu Zhao, Yuqi Li and Xijiong Xie
- Abstract要約: 本稿では,3次元高密度畳み込みネットワーク(3D-DenseNets)と時間的畳み込みネットワーク(TCNs)の改善に基づくマルチモーダルジェスチャー認識手法を提案する。
空間分析では3D-DenseNetを用いて短期的特徴を効果的に学習する。
時間的分析では、TNを用いて時間的特徴を抽出し、改良されたSqueeze-and-Excitation Networks(SENet)を用いて各TNの層から時間的特徴の表現力を強化する。
- 参考スコア(独自算出の注目度): 23.054444026402738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The purpose of gesture recognition is to recognize meaningful movements of
human bodies, and gesture recognition is an important issue in computer vision.
In this paper, we present a multimodal gesture recognition method based on 3D
densely convolutional networks (3D-DenseNets) and improved temporal
convolutional networks (TCNs). The key idea of our approach is to find a
compact and effective representation of spatial and temporal features, which
orderly and separately divide task of gesture video analysis into two parts:
spatial analysis and temporal analysis. In spatial analysis, we adopt
3D-DenseNets to learn short-term spatio-temporal features effectively.
Subsequently, in temporal analysis, we use TCNs to extract temporal features
and employ improved Squeeze-and-Excitation Networks (SENets) to strengthen the
representational power of temporal features from each TCNs' layers. The method
has been evaluated on the VIVA and the NVIDIA Gesture Dynamic Hand Gesture
Datasets. Our approach obtains very competitive performance on VIVA benchmarks
with the classification accuracies of 91.54%, and achieve state-of-the art
performance with 86.37% accuracy on NVIDIA benchmark.
- Abstract(参考訳): ジェスチャー認識の目的は人体の意味ある動きを認識することであり、ジェスチャー認識はコンピュータビジョンにおいて重要な問題である。
本稿では,3次元高密度畳み込みネットワーク(3D-DenseNets)に基づくマルチモーダルなジェスチャー認識手法を提案し,時間的畳み込みネットワーク(TCNs)を改善した。
提案手法の鍵となる考え方は,空間的特徴と時間的特徴をコンパクトかつ効果的に表現し,ジェスチャー映像解析のタスクを空間的分析と時間的分析の2つの部分に順に分割することである。
空間分析では3D-DenseNetを用いて短時間の時空間的特徴を効果的に学習する。
その後,時間解析において,tcnを用いて時間的特徴を抽出し,各tns層からの時間的特徴の表現力を強化するために改良されたsuse-and-excitation network (senets) を用いる。
この手法は、VIVAとNVIDIA Gesture Dynamic Hand Gesture Datasetsで評価されている。
提案手法は,VIVAベンチマークの分類精度91.54%で非常に競争力のある性能を得るとともに,NVIDIAベンチマークの86.37%の精度で最先端のパフォーマンスを実現する。
関連論文リスト
- Deepfake Detection: Leveraging the Power of 2D and 3D CNN Ensembles [0.0]
本研究は,映像コンテンツの検証に革新的なアプローチを提案する。
この手法は高度な2次元および3次元畳み込みニューラルネットワークをブレンドする。
実験による検証は、この戦略の有効性を強調し、ディープフェイクの発生に対処する可能性を示している。
論文 参考訳(メタデータ) (2023-10-25T06:00:37Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Directional Temporal Modeling for Action Recognition [24.805397801876687]
本稿では,局所的特徴間の時間的進化をモデル化するチャネル独立指向性畳み込み(CIDC)操作を提案する。
当社のCIDCネットワークは,任意のアクティビティ認識バックボーンネットワークにアタッチ可能である。
論文 参考訳(メタデータ) (2020-07-21T18:49:57Z) - Interpreting video features: a comparison of 3D convolutional networks
and convolutional LSTM networks [1.462434043267217]
我々は3次元畳み込みネットワークと畳み込みLSTMネットワークが時間依存のフレーム間でどのように特徴を学習するかを比較する。
以上の結果から,3次元畳み込みモデルは入力シーケンス内の短い事象に集中し,空間的焦点を少ない連続した領域に配置することが示唆された。
論文 参考訳(メタデータ) (2020-02-02T11:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。