論文の概要: GCN-DevLSTM: Path Development for Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2403.15212v2
- Date: Sun, 26 May 2024 19:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 06:26:32.253349
- Title: GCN-DevLSTM: Path Development for Skeleton-Based Action Recognition
- Title(参考訳): GCN-DevLSTM:骨格に基づく行動認識のためのパス開発
- Authors: Lei Jiang, Weixin Yang, Xin Zhang, Hao Ni,
- Abstract要約: ビデオにおける骨格に基づく行動認識は、コンピュータビジョンにおいて重要であるが難しい課題である。
本稿では,リー群構造を利用した逐次データ表現法を提案する。
提案するGCN-DevLSTMネットワークは,強いGCNベースラインモデルの改良を一貫して行い,SARタスクの堅牢性に優れたSOTA結果が得られる。
- 参考スコア(独自算出の注目度): 10.562869805151411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based action recognition (SAR) in videos is an important but challenging task in computer vision. The recent state-of-the-art (SOTA) models for SAR are primarily based on graph convolutional neural networks (GCNs), which are powerful in extracting the spatial information of skeleton data. However, it is yet clear that such GCN-based models can effectively capture the temporal dynamics of human action sequences. To this end, we propose the G-Dev layer, which exploits the path development -- a principled and parsimonious representation for sequential data by leveraging the Lie group structure. By integrating the G-Dev layer, the hybrid G-DevLSTM module enhances the traditional LSTM to reduce the time dimension while retaining high-frequency information. It can be conveniently applied to any temporal graph data, complementing existing advanced GCN-based models. Our empirical studies on the NTU60, NTU120 and Chalearn2013 datasets demonstrate that our proposed GCN-DevLSTM network consistently improves the strong GCN baseline models and achieves SOTA results with superior robustness in SAR tasks. The code is available at https://github.com/DeepIntoStreams/GCN-DevLSTM.
- Abstract(参考訳): ビデオにおける骨格に基づく行動認識(SAR)はコンピュータビジョンにおいて重要な課題であるが難しい課題である。
SARの最近の最先端(SOTA)モデルは、主に骨格データの空間情報抽出に強力なグラフ畳み込みニューラルネットワーク(GCN)に基づいている。
しかし、このようなGCNベースのモデルが人間の行動系列の時間的ダイナミクスを効果的に捉えることは、まだ明らかではない。
この目的のために、リー群構造を利用して、シーケンシャルデータに対する原則的かつ同相な表現である経路開発を利用するG-Dev層を提案する。
G-Dev層を統合することで、G-DevLSTMモジュールは従来のLSTMを強化し、高周波情報を保持しながら時間次元を短縮する。
既存の高度なGCNベースのモデルを補完して、任意の時間グラフデータに便利に適用することができる。
NTU60, NTU120およびChalearn2013データセットに関する実証研究により、提案したGCN-DevLSTMネットワークは、強いGCNベースラインモデルを一貫して改善し、SARタスクの堅牢性に優れたSOTA結果が得られることを示した。
コードはhttps://github.com/DeepIntoStreams/GCN-DevLSTMで公開されている。
関連論文リスト
- SiGNN: A Spike-induced Graph Neural Network for Dynamic Graph Representation Learning [42.716744098170835]
本研究では,動的グラフ上での時空間表現の強化を学習するための,スパイク誘発グラフニューラルネットワーク(SiGNN)という新しいフレームワークを提案する。
TA機構を利用して、SiGNNはSNNの時間的ダイナミクスを効果的に活用するだけでなく、スパイクのバイナリの性質によって課される表現的制約を積極的に回避する。
実世界の動的グラフデータセットに対する大規模な実験は、ノード分類タスクにおけるSiGNNの優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-11T05:19:43Z) - A Generative Self-Supervised Framework using Functional Connectivity in
fMRI Data [15.211387244155725]
機能的磁気共鳴イメージング(fMRI)データから抽出した機能的接続性(FC)ネットワークを訓練したディープニューラルネットワークが人気を博している。
グラフニューラルネットワーク(GNN)のFCへの適用に関する最近の研究は、FCの時間変化特性を活用することにより、モデル予測の精度と解釈可能性を大幅に向上させることができることを示唆している。
高品質なfMRIデータとそれに対応するラベルを取得するための高コストは、実環境において彼らのアプリケーションにハードルをもたらす。
本研究では,動的FC内の時間情報を効果的に活用するためのSSL生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T16:14:43Z) - DG-STGCN: Dynamic Spatial-Temporal Modeling for Skeleton-based Action
Recognition [77.87404524458809]
骨格に基づく行動認識のための新しいフレームワーク,すなわち動的グループ時空間GCN(DG-STGCN)を提案する。
DG-GCNとDG-TCNの2つのモジュールで構成される。
DG-STGCNは最先端の手法よりも一貫して優れており、しばしば顕著な差がある。
論文 参考訳(メタデータ) (2022-10-12T03:17:37Z) - Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition [32.07659338674024]
グラフ畳み込みネットワーク(GCN)は、人体骨格を空間的および時間的グラフとしてモデル化することができる。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークとして,ポーズ誘導型GCN(PG-GCN)を提案する。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームから、ポーズストリームの機能を集約することで、より堅牢な機能表現能力を持つネットワークを実現することだ。
論文 参考訳(メタデータ) (2022-10-10T02:08:49Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text
Generation [56.73834525802723]
軽量な動的グラフ畳み込みネットワーク (LDGCN) を提案する。
LDGCNは入力グラフから高次情報を合成することにより、よりリッチな非局所的な相互作用をキャプチャする。
我々は,グループグラフの畳み込みと重み付き畳み込みに基づく2つの新しいパラメータ保存戦略を開発し,メモリ使用量とモデル複雑性を低減する。
論文 参考訳(メタデータ) (2020-10-09T06:03:46Z) - Data-Driven Learning of Geometric Scattering Networks [74.3283600072357]
最近提案された幾何散乱変換の緩和に基づく新しいグラフニューラルネットワーク(GNN)モジュールを提案する。
我々の学習可能な幾何散乱(LEGS)モジュールは、ウェーブレットの適応的なチューニングを可能にし、学習された表現に帯域通過の特徴が現れるように促す。
論文 参考訳(メタデータ) (2020-10-06T01:20:27Z) - Feedback Graph Convolutional Network for Skeleton-based Action
Recognition [38.782491442635205]
フィードバックグラフ畳み込みネットワーク(FGCN)という新しいネットワークを提案する。
これは、GCNとアクション認識にフィードバックメカニズムを導入する最初の作業である。
3つのデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-17T07:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。