論文の概要: A Two-stream Neural Network for Pose-based Hand Gesture Recognition
- arxiv url: http://arxiv.org/abs/2101.08926v1
- Date: Fri, 22 Jan 2021 03:22:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 05:10:34.222872
- Title: A Two-stream Neural Network for Pose-based Hand Gesture Recognition
- Title(参考訳): Pose-based Hand Gesture Recognitionのための2ストリームニューラルネットワーク
- Authors: Chuankun Li, Shuai Li, Yanbo Gao, Xiang Zhang, Wanqing Li
- Abstract要約: 近年,ポーズに基づくジェスチャー認識が広く研究されている。
本稿では,グラフ畳み込みネットワーク(sagcn)を1ストリームとする2ストリームニューラルネットワークを提案する。
残差接続強化Bi-IndRNNは、時間モデリングのための双方向処理機能を備えたIndRNNを拡張する。
- 参考スコア(独自算出の注目度): 23.50938160992517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pose based hand gesture recognition has been widely studied in the recent
years. Compared with full body action recognition, hand gesture involves joints
that are more spatially closely distributed with stronger collaboration. This
nature requires a different approach from action recognition to capturing the
complex spatial features. Many gesture categories, such as "Grab" and "Pinch",
have very similar motion or temporal patterns posing a challenge on temporal
processing. To address these challenges, this paper proposes a two-stream
neural network with one stream being a self-attention based graph convolutional
network (SAGCN) extracting the short-term temporal information and hierarchical
spatial information, and the other being a residual-connection enhanced
bidirectional Independently Recurrent Neural Network (RBi-IndRNN) for
extracting long-term temporal information. The self-attention based graph
convolutional network has a dynamic self-attention mechanism to adaptively
exploit the relationships of all hand joints in addition to the fixed topology
and local feature extraction in the GCN. On the other hand, the
residual-connection enhanced Bi-IndRNN extends an IndRNN with the capability of
bidirectional processing for temporal modelling. The two streams are fused
together for recognition. The Dynamic Hand Gesture dataset and First-Person
Hand Action dataset are used to validate its effectiveness, and our method
achieves state-of-the-art performance.
- Abstract(参考訳): 近年,ポーズに基づくジェスチャー認識が広く研究されている。
全身動作認識と比較すると、手の動きはより空間的に密に分布し、より強い協調を伴う関節を伴う。
この性質は、複雑な空間的特徴を捉えるための行動認識とは異なるアプローチを必要とする。
グラブ(grab)やピンチ(pinch)のような多くのジェスチャーカテゴリは、時間処理に挑戦する非常に類似した動きや時間パターンを持っている。
そこで本稿では,短期時間情報と階層的空間情報を抽出するsagcn(self-attention based graph convolutional network)と,長期時間情報を抽出するrbi-indrnn(extrest-connection enhanced bidirectional independent recurrent neural network)の2つのストリームニューラルネットワークを提案する。
自己アテンションに基づくグラフ畳み込みネットワークは、GCNの固定位相と局所特徴抽出に加えて、すべての手関節の関係を適応的に活用する動的自己アテンション機構を有する。
一方、残留接続強化Bi-IndRNNは、時間モデリングのための双方向処理機能を備えたIndRNNを拡張している。
2つのストリームは、認識のために融合されます。
Dynamic Hand Gesture データセットと First-Person Hand Action データセットを用いてその有効性を検証する。
関連論文リスト
- Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。
適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文 参考訳(メタデータ) (2024-04-03T10:25:45Z) - DD-GCN: Directed Diffusion Graph Convolutional Network for
Skeleton-based Human Action Recognition [10.115283931959855]
Graphal Networks (GCNs) は骨格に基づく人間の行動認識に広く利用されている。
本稿では,行動モデリングのための指向的拡散を構築し,行動分割戦略を導入する。
また、同期時間意味論を組み込むことも提案する。
論文 参考訳(メタデータ) (2023-08-24T01:53:59Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - HAN: An Efficient Hierarchical Self-Attention Network for Skeleton-Based
Gesture Recognition [73.64451471862613]
骨格に基づくジェスチャー認識のための効率的な階層型自己認識ネットワーク(HAN)を提案する。
ジョイント・セルフアテンション・モジュールは指の空間的特徴を捉え、指の自己アテンション・モジュールは手全体の特徴を集約するように設計されている。
実験の結果,3つのジェスチャ認識データセットに対して,計算複雑性がはるかに低い競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-25T02:15:53Z) - A Study On the Effects of Pre-processing On Spatio-temporal Action
Recognition Using Spiking Neural Networks Trained with STDP [0.0]
ビデオ分類タスクにおいて,教師なし学習手法で訓練したSNNの行動を研究することが重要である。
本稿では,時間情報を静的な形式に変換し,遅延符号化を用いて視覚情報をスパイクに変換する手法を提案する。
スパイクニューラルネットワークを用いた行動認識における行動の形状と速度の類似性の効果を示す。
論文 参考訳(メタデータ) (2021-05-31T07:07:48Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Temporal Graph Modeling for Skeleton-based Action Recognition [25.788239844759246]
複雑な時間的ダイナミクスを捉えるための時間拡張グラフ畳み込みネットワーク(TE-GCN)を提案する。
構築された時間関係グラフは、意味的に関連する時間的特徴間の接続を明示的に構築する。
2つの大規模データセットで実験を行う。
論文 参考訳(メタデータ) (2020-12-16T09:02:47Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。