論文の概要: GCN-DevLSTM: Path Development for Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2403.15212v1
- Date: Fri, 22 Mar 2024 13:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:19:18.255032
- Title: GCN-DevLSTM: Path Development for Skeleton-Based Action Recognition
- Title(参考訳): GCN-DevLSTM:骨格に基づく行動認識のためのパス開発
- Authors: Lei Jiang, Weixin Yang, Xin Zhang, Hao Ni,
- Abstract要約: ビデオにおける骨格に基づく行動認識(SAR)はコンピュータビジョンにおいて重要な課題であるが難しい課題である。
本稿では、シーケンシャルデータに対する原則的かつ同義的な表現である経路開発を利用するDevLSTMモジュールを提案する。
提案するG-DevLSTMモジュールは,既存のGCNベースモデルを補完し,時間グラフに都合よくプラグインすることができる。
- 参考スコア(独自算出の注目度): 10.562869805151411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based action recognition (SAR) in videos is an important but challenging task in computer vision. The recent state-of-the-art models for SAR are primarily based on graph convolutional neural networks (GCNs), which are powerful in extracting the spatial information of skeleton data. However, it is yet clear that such GCN-based models can effectively capture the temporal dynamics of human action sequences. To this end, we propose the DevLSTM module, which exploits the path development -- a principled and parsimonious representation for sequential data by leveraging the Lie group structure. The path development, originated from Rough path theory, can effectively capture the order of events in high-dimensional stream data with massive dimension reduction and consequently enhance the LSTM module substantially. Our proposed G-DevLSTM module can be conveniently plugged into the temporal graph, complementing existing advanced GCN-based models. Our empirical studies on the NTU60, NTU120 and Chalearn2013 datasets demonstrate that our proposed hybrid model significantly outperforms the current best-performing methods in SAR tasks. The code is available at https://github.com/DeepIntoStreams/GCN-DevLSTM.
- Abstract(参考訳): ビデオにおける骨格に基づく行動認識(SAR)はコンピュータビジョンにおいて重要な課題であるが難しい課題である。
SARの最近の最先端モデルは、主に、骨格データの空間情報抽出に強力なグラフ畳み込みニューラルネットワーク(GCN)に基づいている。
しかし、このようなGCNベースのモデルが人間の行動系列の時間的ダイナミクスを効果的に捉えることは、まだ明らかではない。
この目的のために我々は,Lieグループ構造を利用して,シーケンシャルデータに対する原則的かつ同義的な表現である経路開発を利用するDevLSTMモジュールを提案する。
経路展開はRoughパス理論から導かれるもので,高次元ストリームデータ中の事象の順序を次元を小さくすることで効果的に把握し,LSTMモジュールを大幅に拡張することができる。
提案するG-DevLSTMモジュールは,既存のGCNベースモデルを補完し,時間グラフに都合よくプラグインすることができる。
NTU60,NTU120およびChalearn2013データセットに関する実証研究により、提案したハイブリッドモデルが、SARタスクにおける現在の最高のパフォーマンス手法を大幅に上回っていることを示す。
コードはhttps://github.com/DeepIntoStreams/GCN-DevLSTMで公開されている。
関連論文リスト
- DTFormer: A Transformer-Based Method for Discrete-Time Dynamic Graph Representation Learning [38.53424185696828]
離散時間動的グラフ(DTDG)の表現学習は、時間的に変化するエンティティとその進化する接続のダイナミクスをモデル化するために広く応用されている。
本稿では,従来の GNN+RNN フレームワークから Transformer ベースのアーキテクチャへ移行した DTDG のための表現学習手法 DTFormer を提案する。
論文 参考訳(メタデータ) (2024-07-26T05:46:23Z) - A Generative Self-Supervised Framework using Functional Connectivity in
fMRI Data [15.211387244155725]
機能的磁気共鳴イメージング(fMRI)データから抽出した機能的接続性(FC)ネットワークを訓練したディープニューラルネットワークが人気を博している。
グラフニューラルネットワーク(GNN)のFCへの適用に関する最近の研究は、FCの時間変化特性を活用することにより、モデル予測の精度と解釈可能性を大幅に向上させることができることを示唆している。
高品質なfMRIデータとそれに対応するラベルを取得するための高コストは、実環境において彼らのアプリケーションにハードルをもたらす。
本研究では,動的FC内の時間情報を効果的に活用するためのSSL生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T16:14:43Z) - DG-STGCN: Dynamic Spatial-Temporal Modeling for Skeleton-based Action
Recognition [77.87404524458809]
骨格に基づく行動認識のための新しいフレームワーク,すなわち動的グループ時空間GCN(DG-STGCN)を提案する。
DG-GCNとDG-TCNの2つのモジュールで構成される。
DG-STGCNは最先端の手法よりも一貫して優れており、しばしば顕著な差がある。
論文 参考訳(メタデータ) (2022-10-12T03:17:37Z) - Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition [32.07659338674024]
グラフ畳み込みネットワーク(GCN)は、人体骨格を空間的および時間的グラフとしてモデル化することができる。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークとして,ポーズ誘導型GCN(PG-GCN)を提案する。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームから、ポーズストリームの機能を集約することで、より堅牢な機能表現能力を持つネットワークを実現することだ。
論文 参考訳(メタデータ) (2022-10-10T02:08:49Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text
Generation [56.73834525802723]
軽量な動的グラフ畳み込みネットワーク (LDGCN) を提案する。
LDGCNは入力グラフから高次情報を合成することにより、よりリッチな非局所的な相互作用をキャプチャする。
我々は,グループグラフの畳み込みと重み付き畳み込みに基づく2つの新しいパラメータ保存戦略を開発し,メモリ使用量とモデル複雑性を低減する。
論文 参考訳(メタデータ) (2020-10-09T06:03:46Z) - Data-Driven Learning of Geometric Scattering Networks [74.3283600072357]
最近提案された幾何散乱変換の緩和に基づく新しいグラフニューラルネットワーク(GNN)モジュールを提案する。
我々の学習可能な幾何散乱(LEGS)モジュールは、ウェーブレットの適応的なチューニングを可能にし、学習された表現に帯域通過の特徴が現れるように促す。
論文 参考訳(メタデータ) (2020-10-06T01:20:27Z) - Feedback Graph Convolutional Network for Skeleton-based Action
Recognition [38.782491442635205]
フィードバックグラフ畳み込みネットワーク(FGCN)という新しいネットワークを提案する。
これは、GCNとアクション認識にフィードバックメカニズムを導入する最初の作業である。
3つのデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-17T07:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。