論文の概要: Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2011.13322v2
- Date: Fri, 20 Aug 2021 02:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 08:11:48.525321
- Title: Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition
- Title(参考訳): 骨格に基づく行動認識のための時空間インセプショングラフ畳み込みネットワーク
- Authors: Zhen Huang, Xu Shen, Xinmei Tian, Houqiang Li, Jianqiang Huang and
Xian-Sheng Hua
- Abstract要約: 我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
- 参考スコア(独自算出の注目度): 126.51241919472356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Skeleton-based human action recognition has attracted much attention with the
prevalence of accessible depth sensors. Recently, graph convolutional networks
(GCNs) have been widely used for this task due to their powerful capability to
model graph data. The topology of the adjacency graph is a key factor for
modeling the correlations of the input skeletons. Thus, previous methods mainly
focus on the design/learning of the graph topology. But once the topology is
learned, only a single-scale feature and one transformation exist in each layer
of the networks. Many insights, such as multi-scale information and multiple
sets of transformations, that have been proven to be very effective in
convolutional neural networks (CNNs), have not been investigated in GCNs. The
reason is that, due to the gap between graph-structured skeleton data and
conventional image/video data, it is very challenging to embed these insights
into GCNs. To overcome this gap, we reinvent the split-transform-merge strategy
in GCNs for skeleton sequence processing. Specifically, we design a simple and
highly modularized graph convolutional network architecture for skeleton-based
action recognition. Our network is constructed by repeating a building block
that aggregates multi-granularity information from both the spatial and
temporal paths. Extensive experiments demonstrate that our network outperforms
state-of-the-art methods by a significant margin with only 1/5 of the
parameters and 1/10 of the FLOPs. Code is available at
https://github.com/yellowtownhz/STIGCN.
- Abstract(参考訳): 骨格に基づく人間の行動認識は、アクセス可能な深度センサーの普及によって多くの注目を集めている。
近年、グラフ畳み込みネットワーク(GCN)は、グラフデータをモデル化する強力な能力のために広く利用されている。
隣接グラフのトポロジーは、入力骨格の相関をモデル化するための重要な要素である。
したがって、従来の手法は主にグラフトポロジの設計/学習に焦点を当てていた。
しかし、トポロジが学習されると、ネットワークの各層に単一スケールの機能と1つの変換しか存在しない。
畳み込みニューラルネットワーク(CNN)において非常に有効であることが証明されたマルチスケール情報や複数の変換セットなどの多くの洞察は、GCNでは研究されていない。
理由は、グラフ構造化スケルトンデータと従来の画像/ビデオデータとのギャップがあるため、これらの洞察をGCNに埋め込むことが非常に困難であるからである。
このギャップを克服するため、スケルトン配列処理のためのGCNにおける分割変換マージ戦略を再発明する。
具体的には、スケルトンに基づく行動認識のための、シンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
我々のネットワークは,パラメータの1/5とFLOPの1/10の差で,最先端の手法よりも優れていた。
コードはhttps://github.com/yellowtownhz/stigcnで入手できる。
関連論文リスト
- Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Overcoming Oversmoothness in Graph Convolutional Networks via Hybrid
Scattering Networks [11.857894213975644]
本稿では,従来のGCNフィルタと幾何散乱変換を用いて定義された帯域通過フィルタを組み合わせたハイブリッドグラフニューラルネットワーク(GNN)フレームワークを提案する。
理論的には, グラフからの構造情報を活用するために散乱フィルタの相補的な利点が確立され, 実験では様々な学習課題における手法の利点が示された。
論文 参考訳(メタデータ) (2022-01-22T00:47:41Z) - Topology-aware Convolutional Neural Network for Efficient Skeleton-based
Action Recognition [15.93566875893684]
本稿では,Topology-Aware CNN (Ta-CNN) という純粋CNNアーキテクチャを提案する。
我々は,マップ-アットエンド-グループ-マップ操作の組み合わせである,新しいクロスチャネル機能拡張モジュールを開発した。
特に,マップ-アットエンド-グループ-マップ操作の組み合わせである,新しいクロスチャネル機能拡張モジュールを開発した。
論文 参考訳(メタデータ) (2021-12-08T09:02:50Z) - Overcoming Catastrophic Forgetting in Graph Neural Networks [50.900153089330175]
破滅的な忘れは、ニューラルネットワークが新しいタスクを学ぶ前に学んだ知識を「忘れる」傾向を指します。
本稿では,この問題を克服し,グラフニューラルネットワーク(GNN)における継続学習を強化するための新しいスキームを提案する。
私たちのアプローチの中心には、トポロジ認識重量保存(TWP)と呼ばれる汎用モジュールがあります。
論文 参考訳(メタデータ) (2020-12-10T22:30:25Z) - Progressive Spatio-Temporal Graph Convolutional Network for
Skeleton-Based Human Action Recognition [97.14064057840089]
本稿では,グラフ畳み込みネットワークのためのコンパクトで問題固有のネットワークを,段階的に自動的に見つける手法を提案する。
骨格に基づく人体行動認識のための2つのデータセットの実験結果から,提案手法は競争力あるいはより優れた分類性能を有することが示された。
論文 参考訳(メタデータ) (2020-11-11T09:57:49Z) - Temporal Attention-Augmented Graph Convolutional Network for Efficient
Skeleton-Based Human Action Recognition [97.14064057840089]
グラフネットワーク(GCN)はユークリッド以外のデータ構造をモデル化するのに非常に成功した。
ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。
本稿では,骨格に基づく行動認識の効率を高めるための時間的アテンションモジュール(TAM)を提案する。
論文 参考訳(メタデータ) (2020-10-23T08:01:55Z) - Dynamic GCN: Context-enriched Topology Learning for Skeleton-based
Action Recognition [40.467040910143616]
本稿では,新しい畳み込みニューラルネットワークであるContextencoding Network(CeN)を導入し,骨格トポロジを自動的に学習する動的GCNを提案する。
CeNは非常に軽量だが効果的であり、グラフ畳み込み層に埋め込むことができる。
動的GCNは、既存のメソッドよりも2時間$4times$少なめのFLOPでパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-07-29T09:12:06Z) - Simple and Deep Graph Convolutional Networks [63.76221532439285]
グラフ畳み込みネットワーク(GCN)は、グラフ構造化データに対する強力なディープラーニングアプローチである。
その成功にもかかわらず、現在のGCNモデルは、エムの過度に滑らかな問題のため、ほとんどが浅くなっている。
本稿では,2つの単純かつ効果的な手法を用いて,バニラGCNモデルを拡張したGCNIIを提案する。
論文 参考訳(メタデータ) (2020-07-04T16:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。