論文の概要: Stronger, Faster and More Explainable: A Graph Convolutional Baseline
for Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2010.09978v1
- Date: Tue, 20 Oct 2020 02:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 07:03:53.446498
- Title: Stronger, Faster and More Explainable: A Graph Convolutional Baseline
for Skeleton-based Action Recognition
- Title(参考訳): より強く、より速く、より説明しやすい:骨格に基づく行動認識のためのグラフ畳み込みベースライン
- Authors: Yi-Fan Song, Zhang Zhang, Caifeng Shan and Liang Wang
- Abstract要約: グラフ畳み込みネットワーク(GCN)に基づく効率的だが強力なベースラインを提案する。
畳み込みニューラルネットワーク(CNN)におけるResNetアーキテクチャの成功に触発されたResGCNモジュールがGCNで導入された。
PartAttブロックは、アクションシーケンス全体の上で最も重要な身体部分を発見するために提案される。
- 参考スコア(独自算出の注目度): 22.90127409366107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One essential problem in skeleton-based action recognition is how to extract
discriminative features over all skeleton joints. However, the complexity of
the State-Of-The-Art (SOTA) models of this task tends to be exceedingly
sophisticated and over-parameterized, where the low efficiency in model
training and inference has obstructed the development in the field, especially
for large-scale action datasets. In this work, we propose an efficient but
strong baseline based on Graph Convolutional Network (GCN), where three main
improvements are aggregated, i.e., early fused Multiple Input Branches (MIB),
Residual GCN (ResGCN) with bottleneck structure and Part-wise Attention
(PartAtt) block. Firstly, an MIB is designed to enrich informative skeleton
features and remain compact representations at an early fusion stage. Then,
inspired by the success of the ResNet architecture in Convolutional Neural
Network (CNN), a ResGCN module is introduced in GCN to alleviate computational
costs and reduce learning difficulties in model training while maintain the
model accuracy. Finally, a PartAtt block is proposed to discover the most
essential body parts over a whole action sequence and obtain more explainable
representations for different skeleton action sequences. Extensive experiments
on two large-scale datasets, i.e., NTU RGB+D 60 and 120, validate that the
proposed baseline slightly outperforms other SOTA models and meanwhile requires
much fewer parameters during training and inference procedures, e.g., at most
34 times less than DGNN, which is one of the best SOTA methods.
- Abstract(参考訳): 骨格に基づく行動認識における重要な問題は、すべての骨格関節で識別的特徴を抽出する方法である。
しかし、このタスクのステートオフ・ザ・アルト(SOTA)モデルの複雑さは、モデルトレーニングと推論の低効率がフィールド、特に大規模アクションデータセットの開発を妨げているため、高度で過度にパラメータ化された傾向にある。
本研究では,グラフ畳み込みネットワーク(gcn)に基づく効率的かつ強固なベースラインを提案する。そこでは3つの主要な改善点,すなわち,ボトルネック構造を持つ早期融合多重入力ブランチ(mib),残差gcn(resgcn),パートワイズアテンション(partatt)ブロックを集約する。
まず、MIBは情報的骨格の特徴を豊かにし、初期の融合段階でコンパクトな表現を維持するように設計されている。
そして、畳み込みニューラルネットワーク(CNN)におけるResNetアーキテクチャの成功に触発されて、GCNにResGCNモジュールを導入し、計算コストを軽減し、モデルの精度を維持しながらモデルのトレーニングにおける学習困難を軽減する。
最後に、PartAttブロックは、アクションシーケンス全体に最も必要不可欠な部分を発見し、異なるスケルトンアクションシーケンスのより説明可能な表現を得るために提案される。
NTU RGB+D 60 と 120 という2つの大規模データセットに対する大規模な実験は、提案されたベースラインが他のSOTAモデルより若干優れており、一方で訓練や推論手順においてパラメータがはるかに少ないことを検証する。
関連論文リスト
- Overcoming Topology Agnosticism: Enhancing Skeleton-Based Action
Recognition through Redefined Skeletal Topology Awareness [24.83836008577395]
グラフ畳み込みネットワーク(GCN)は長い間、骨格に基づく行動認識の最先端を定義してきた。
彼らはモデルの重みとともに隣接行列を最適化する傾向がある。
このプロセスは、骨接続データの段階的な崩壊を引き起こし、マッピングしようとしたトポロジとは無関係なモデルで終わる。
本稿では,骨の接続性をグラフ距離のパワーを利用して符号化する革新的な経路を提案する。
論文 参考訳(メタデータ) (2023-05-19T06:40:12Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - Comprehensive Graph Gradual Pruning for Sparse Training in Graph Neural
Networks [52.566735716983956]
本稿では,CGPと呼ばれるグラフの段階的プルーニングフレームワークを動的にGNNに提案する。
LTHに基づく手法とは異なり、提案手法では再学習を必要とせず、計算コストを大幅に削減する。
提案手法は,既存の手法の精度を一致させたり,あるいは超えたりしながら,トレーニングと推論の効率を大幅に向上させる。
論文 参考訳(メタデータ) (2022-07-18T14:23:31Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Tackling Oversmoothing of GNNs with Contrastive Learning [35.88575306925201]
グラフニューラルネットワーク(GNN)は、グラフデータと表現学習能力の包括的な関係を統合する。
オーバースムーシングはノードの最終的な表現を識別不能にし、ノード分類とリンク予測性能を劣化させる。
本稿では,TGCL(Topology-Guided Graph Contrastive Layer)を提案する。
論文 参考訳(メタデータ) (2021-10-26T15:56:16Z) - Constructing Stronger and Faster Baselines for Skeleton-based Action
Recognition [19.905455701387194]
骨格に基づく行動認識のための効率的なグラフ畳み込みネットワーク(GCN)のベースラインを提案する。
NTU RGB+D 60 と 120 の2つの大規模データセットでは、提案されたEfficientGCN-B4 ベースラインは、他の State-Of-The-Art (SOTA) メソッドよりも優れている。
論文 参考訳(メタデータ) (2021-06-29T07:09:11Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Temporal Attention-Augmented Graph Convolutional Network for Efficient
Skeleton-Based Human Action Recognition [97.14064057840089]
グラフネットワーク(GCN)はユークリッド以外のデータ構造をモデル化するのに非常に成功した。
ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。
本稿では,骨格に基づく行動認識の効率を高めるための時間的アテンションモジュール(TAM)を提案する。
論文 参考訳(メタデータ) (2020-10-23T08:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。