論文の概要: HAN: An Efficient Hierarchical Self-Attention Network for Skeleton-Based
Gesture Recognition
- arxiv url: http://arxiv.org/abs/2106.13391v1
- Date: Fri, 25 Jun 2021 02:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 00:20:57.120820
- Title: HAN: An Efficient Hierarchical Self-Attention Network for Skeleton-Based
Gesture Recognition
- Title(参考訳): HAN:骨格型ジェスチャー認識のための効率的な階層型自己認識ネットワーク
- Authors: Jianbo Liu, Ying Wang, Shiming Xiang, Chunhong Pan
- Abstract要約: 骨格に基づくジェスチャー認識のための効率的な階層型自己認識ネットワーク(HAN)を提案する。
ジョイント・セルフアテンション・モジュールは指の空間的特徴を捉え、指の自己アテンション・モジュールは手全体の特徴を集約するように設計されている。
実験の結果,3つのジェスチャ認識データセットに対して,計算複雑性がはるかに低い競合的な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 73.64451471862613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous methods for skeleton-based gesture recognition mostly arrange the
skeleton sequence into a pseudo picture or spatial-temporal graph and apply
deep Convolutional Neural Network (CNN) or Graph Convolutional Network (GCN)
for feature extraction. Although achieving superior results, these methods have
inherent limitations in dynamically capturing local features of interactive
hand parts, and the computing efficiency still remains a serious issue. In this
work, the self-attention mechanism is introduced to alleviate this problem.
Considering the hierarchical structure of hand joints, we propose an efficient
hierarchical self-attention network (HAN) for skeleton-based gesture
recognition, which is based on pure self-attention without any CNN, RNN or GCN
operators. Specifically, the joint self-attention module is used to capture
spatial features of fingers, the finger self-attention module is designed to
aggregate features of the whole hand. In terms of temporal features, the
temporal self-attention module is utilized to capture the temporal dynamics of
the fingers and the entire hand. Finally, these features are fused by the
fusion self-attention module for gesture classification. Experiments show that
our method achieves competitive results on three gesture recognition datasets
with much lower computational complexity.
- Abstract(参考訳): 骨格に基づくジェスチャー認識の従来の手法は、骨格配列を擬似画像や時空間グラフに配置し、深層畳み込みニューラルネットワーク(CNN)やグラフ畳み込みニューラルネットワーク(GCN)を用いて特徴抽出を行う。
優れた結果を得たにもかかわらず、これらの手法はインタラクティブな手の部品の局所的な特徴を動的に捉えることに固有の制限があり、計算効率は依然として深刻な問題である。
本研究では,この問題を緩和するために自己着脱機構を導入する。
本稿では,手関節の階層構造を考慮し,CNN,RNN,GCN演算子を使わずに,純粋な自己認識に基づく骨格型ジェスチャー認識のための効率的な階層型自己認識ネットワーク(HAN)を提案する。
具体的には、関節型自己保持モジュールは指の空間的特徴を捉え、指型自己保持モジュールは手全体の特徴を集約するように設計されている。
時間的特徴の観点からは、時間的自己アテンションモジュールを使用して指と手全体の時間的ダイナミクスを捉える。
最後に、これらの機能はジェスチャ分類のための融合自己注意モジュールによって融合される。
提案手法は,計算複雑性がはるかに低い3つのジェスチャ認識データセットにおいて,競合する結果が得られることを示す。
関連論文リスト
- Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。
適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文 参考訳(メタデータ) (2024-04-03T10:25:45Z) - Part Aware Contrastive Learning for Self-Supervised Action Recognition [18.423841093299135]
本稿では,骨格表現学習のための注意に基づくコントラスト学習フレームワークであるSkeAttnCLRを提案する。
提案するSkeAttnCLRはNTURGB+D, NTU120-RGB+D, PKU-MMDデータセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2023-05-01T05:31:48Z) - Neural Eigenfunctions Are Structured Representation Learners [93.53445940137618]
本稿ではニューラル固有写像という,構造化された適応長の深部表現を提案する。
本稿では,データ拡張設定における正の関係から固有関数が導出される場合,NeuralEFを適用することで目的関数が得られることを示す。
画像検索システムにおいて,適応長符号のような表現を用いることを実証する。
論文 参考訳(メタデータ) (2022-10-23T07:17:55Z) - Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition [32.07659338674024]
グラフ畳み込みネットワーク(GCN)は、人体骨格を空間的および時間的グラフとしてモデル化することができる。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークとして,ポーズ誘導型GCN(PG-GCN)を提案する。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームから、ポーズストリームの機能を集約することで、より堅牢な機能表現能力を持つネットワークを実現することだ。
論文 参考訳(メタデータ) (2022-10-10T02:08:49Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - A Two-stream Neural Network for Pose-based Hand Gesture Recognition [23.50938160992517]
近年,ポーズに基づくジェスチャー認識が広く研究されている。
本稿では,グラフ畳み込みネットワーク(sagcn)を1ストリームとする2ストリームニューラルネットワークを提案する。
残差接続強化Bi-IndRNNは、時間モデリングのための双方向処理機能を備えたIndRNNを拡張する。
論文 参考訳(メタデータ) (2021-01-22T03:22:26Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。