論文の概要: GCN-DevLSTM: Path Development for Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2403.15212v1
- Date: Fri, 22 Mar 2024 13:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:19:18.255032
- Title: GCN-DevLSTM: Path Development for Skeleton-Based Action Recognition
- Title(参考訳): GCN-DevLSTM:骨格に基づく行動認識のためのパス開発
- Authors: Lei Jiang, Weixin Yang, Xin Zhang, Hao Ni,
- Abstract要約: ビデオにおける骨格に基づく行動認識(SAR)はコンピュータビジョンにおいて重要な課題であるが難しい課題である。
本稿では、シーケンシャルデータに対する原則的かつ同義的な表現である経路開発を利用するDevLSTMモジュールを提案する。
提案するG-DevLSTMモジュールは,既存のGCNベースモデルを補完し,時間グラフに都合よくプラグインすることができる。
- 参考スコア(独自算出の注目度): 10.562869805151411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based action recognition (SAR) in videos is an important but challenging task in computer vision. The recent state-of-the-art models for SAR are primarily based on graph convolutional neural networks (GCNs), which are powerful in extracting the spatial information of skeleton data. However, it is yet clear that such GCN-based models can effectively capture the temporal dynamics of human action sequences. To this end, we propose the DevLSTM module, which exploits the path development -- a principled and parsimonious representation for sequential data by leveraging the Lie group structure. The path development, originated from Rough path theory, can effectively capture the order of events in high-dimensional stream data with massive dimension reduction and consequently enhance the LSTM module substantially. Our proposed G-DevLSTM module can be conveniently plugged into the temporal graph, complementing existing advanced GCN-based models. Our empirical studies on the NTU60, NTU120 and Chalearn2013 datasets demonstrate that our proposed hybrid model significantly outperforms the current best-performing methods in SAR tasks. The code is available at https://github.com/DeepIntoStreams/GCN-DevLSTM.
- Abstract(参考訳): ビデオにおける骨格に基づく行動認識(SAR)はコンピュータビジョンにおいて重要な課題であるが難しい課題である。
SARの最近の最先端モデルは、主に、骨格データの空間情報抽出に強力なグラフ畳み込みニューラルネットワーク(GCN)に基づいている。
しかし、このようなGCNベースのモデルが人間の行動系列の時間的ダイナミクスを効果的に捉えることは、まだ明らかではない。
この目的のために我々は,Lieグループ構造を利用して,シーケンシャルデータに対する原則的かつ同義的な表現である経路開発を利用するDevLSTMモジュールを提案する。
経路展開はRoughパス理論から導かれるもので,高次元ストリームデータ中の事象の順序を次元を小さくすることで効果的に把握し,LSTMモジュールを大幅に拡張することができる。
提案するG-DevLSTMモジュールは,既存のGCNベースモデルを補完し,時間グラフに都合よくプラグインすることができる。
NTU60,NTU120およびChalearn2013データセットに関する実証研究により、提案したハイブリッドモデルが、SARタスクにおける現在の最高のパフォーマンス手法を大幅に上回っていることを示す。
コードはhttps://github.com/DeepIntoStreams/GCN-DevLSTMで公開されている。
関連論文リスト
- A Generative Self-Supervised Framework using Functional Connectivity in
fMRI Data [15.211387244155725]
機能的磁気共鳴イメージング(fMRI)データから抽出した機能的接続性(FC)ネットワークを訓練したディープニューラルネットワークが人気を博している。
グラフニューラルネットワーク(GNN)のFCへの適用に関する最近の研究は、FCの時間変化特性を活用することにより、モデル予測の精度と解釈可能性を大幅に向上させることができることを示唆している。
高品質なfMRIデータとそれに対応するラベルを取得するための高コストは、実環境において彼らのアプリケーションにハードルをもたらす。
本研究では,動的FC内の時間情報を効果的に活用するためのSSL生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T16:14:43Z) - Interpretable Fine-Tuning for Graph Neural Network Surrogate Models [0.0]
本研究は,グラフニューラルネットワーク(GNN)の解釈可能な微調整戦略を導入する。
最終結果は、予測タスクに本質的に関連付けられている部分グラフに対応する物理空間内の領域を分離する強化された微調整モデルである。
正規化手順により、微調整されたGNNを使用して、予測予測エラーの大多数に対応するグラフノードを推論時に特定することもできる。
論文 参考訳(メタデータ) (2023-11-13T18:37:07Z) - Spintronics for image recognition: performance benchmarking via
ultrafast data-driven simulations [4.2412715094420665]
単一スピントロニクスナノ構造を用いたエコー状態ネットワーク(ESN)による画像分類の実証を行った。
我々は、STVO力学をシミュレートするために、データ駆動型Thiele方程式アプローチと呼ばれる超高速なデータ駆動シミュレーションフレームワークを用いる。
我々は、MNIST、EMNIST-letters、Fashion MNISTデータセットで分類課題を解決するために、この手法をうまく適用することで、ソリューションの汎用性を示す。
論文 参考訳(メタデータ) (2023-08-10T18:09:44Z) - DG-STGCN: Dynamic Spatial-Temporal Modeling for Skeleton-based Action
Recognition [77.87404524458809]
骨格に基づく行動認識のための新しいフレームワーク,すなわち動的グループ時空間GCN(DG-STGCN)を提案する。
DG-GCNとDG-TCNの2つのモジュールで構成される。
DG-STGCNは最先端の手法よりも一貫して優れており、しばしば顕著な差がある。
論文 参考訳(メタデータ) (2022-10-12T03:17:37Z) - Pose-Guided Graph Convolutional Networks for Skeleton-Based Action
Recognition [32.07659338674024]
グラフ畳み込みネットワーク(GCN)は、人体骨格を空間的および時間的グラフとしてモデル化することができる。
本研究では,高性能な人行動認識のためのマルチモーダルフレームワークとして,ポーズ誘導型GCN(PG-GCN)を提案する。
このモジュールの中核となる考え方は、トレーニング可能なグラフを使用して、スケルトンストリームから、ポーズストリームの機能を集約することで、より堅牢な機能表現能力を持つネットワークを実現することだ。
論文 参考訳(メタデータ) (2022-10-10T02:08:49Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Stronger, Faster and More Explainable: A Graph Convolutional Baseline
for Skeleton-based Action Recognition [22.90127409366107]
グラフ畳み込みネットワーク(GCN)に基づく効率的だが強力なベースラインを提案する。
畳み込みニューラルネットワーク(CNN)におけるResNetアーキテクチャの成功に触発されたResGCNモジュールがGCNで導入された。
PartAttブロックは、アクションシーケンス全体の上で最も重要な身体部分を発見するために提案される。
論文 参考訳(メタデータ) (2020-10-20T02:56:58Z) - Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text
Generation [56.73834525802723]
軽量な動的グラフ畳み込みネットワーク (LDGCN) を提案する。
LDGCNは入力グラフから高次情報を合成することにより、よりリッチな非局所的な相互作用をキャプチャする。
我々は,グループグラフの畳み込みと重み付き畳み込みに基づく2つの新しいパラメータ保存戦略を開発し,メモリ使用量とモデル複雑性を低減する。
論文 参考訳(メタデータ) (2020-10-09T06:03:46Z) - Data-Driven Learning of Geometric Scattering Networks [74.3283600072357]
最近提案された幾何散乱変換の緩和に基づく新しいグラフニューラルネットワーク(GNN)モジュールを提案する。
我々の学習可能な幾何散乱(LEGS)モジュールは、ウェーブレットの適応的なチューニングを可能にし、学習された表現に帯域通過の特徴が現れるように促す。
論文 参考訳(メタデータ) (2020-10-06T01:20:27Z) - Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action
Recognition [57.98278794950759]
グラフ畳み込みネットワーク(GCN)はすでに、不規則なデータをモデル化する強力な能力を実証している。
本稿では,ポアンカー幾何学を用いて定義した空間時空間GCNアーキテクチャを提案する。
提案手法を,現在最大規模の2つの3次元データセット上で評価する。
論文 参考訳(メタデータ) (2020-07-30T18:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。