論文の概要: GCsT: Graph Convolutional Skeleton Transformer for Action Recognition
- arxiv url: http://arxiv.org/abs/2109.02860v1
- Date: Tue, 7 Sep 2021 04:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:51:03.960705
- Title: GCsT: Graph Convolutional Skeleton Transformer for Action Recognition
- Title(参考訳): GCsT: 行動認識のためのグラフ畳み込み骨格変換器
- Authors: Ruwen Bai, Min Li, Bo Meng, Fengfa Li, Junxing Ren, Miao Jiang, Degang
Sun
- Abstract要約: グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において有望な性能を達成する。
ほとんどのGCNベースの手法では、時空間グラフの畳み込みはグラフトポロジーによって厳密に制限される。
本稿では,新しいアーキテクチャであるGraph Convolutional skeleton Transformer (GCsT)を提案する。
- 参考スコア(独自算出の注目度): 10.49514906434189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph convolutional networks (GCNs) achieve promising performance for
skeleton-based action recognition. However, in most GCN-based methods, the
spatial-temporal graph convolution is strictly restricted by the graph topology
while only captures the short-term temporal context, thus lacking the
flexibility of feature extraction. In this work, we present a novel
architecture, named Graph Convolutional skeleton Transformer (GCsT), which
addresses limitations in GCNs by introducing Transformer. Our GCsT employs all
the benefits of Transformer (i.e. dynamical attention and global context) while
keeps the advantages of GCNs (i.e. hierarchy and local topology structure). In
GCsT, the spatial-temporal GCN forces the capture of local dependencies while
Transformer dynamically extracts global spatial-temporal relationships.
Furthermore, the proposed GCsT shows stronger expressive capability by adding
additional information present in skeleton sequences. Incorporating the
Transformer allows that information to be introduced into the model almost
effortlessly. We validate the proposed GCsT by conducting extensive
experiments, which achieves the state-of-the-art performance on NTU RGB+D, NTU
RGB+D 120 and Northwestern-UCLA datasets.
- Abstract(参考訳): グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において有望な性能を達成する。
しかし、ほとんどのGCNベースの手法では、空間時間グラフの畳み込みはグラフトポロジによって厳格に制限されているが、短期時間文脈のみを捉えており、特徴抽出の柔軟性に欠ける。
本稿では, グラフ畳み込みトランスフォーマー (graph convolutional skeleton transformer, gcst) という新しいアーキテクチャを提案する。
当社のGCsTはTransformerのすべてのメリット(すなわち)を採用しています。
動的注意とグローバルコンテキスト)GCNの利点を維持しながら(すなわち)
階層構造と局所トポロジー構造)。
GCsTでは、空間時空間GCNは局所依存のキャプチャを強制し、Transformerはグローバル空間時空間関係を動的に抽出する。
さらに, 提案したGCsTは, スケルトン配列に存在する付加情報を追加することで, より強力な表現能力を示す。
Transformerを組み込むことで、ほとんど努力せずにモデルに情報を導入することができる。
NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAデータセットの最先端性能を実現するため, 広範な実験を行い, 提案したGCsTを検証する。
関連論文リスト
- Point Cloud Denoising With Fine-Granularity Dynamic Graph Convolutional Networks [58.050130177241186]
ノイズの摂動は、しばしば3次元の点雲を破損させ、表面の再構成、レンダリング、さらなる処理といった下流のタスクを妨げる。
本稿では,GDGCNと呼ばれる粒度動的グラフ畳み込みネットワークについて紹介する。
論文 参考訳(メタデータ) (2024-11-21T14:19:32Z) - Diss-l-ECT: Dissecting Graph Data with local Euler Characteristic Transforms [13.608942872770855]
グラフ表現学習における表現性と解釈性を高めるために,局所オイラー特性変換(ell$-ECT)を導入する。
従来のグラフニューラルネットワーク(GNN)とは異なり、アグリゲーションによって重要な局所的な詳細を失う可能性があるが、$ell$-ECTは局所的な地区の無意味な表現を提供する。
提案手法は,多種多様なノード分類タスク,特に高いヘテロフィリエを持つグラフにおいて,標準GNNよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-03T16:02:02Z) - Signal-SGN: A Spiking Graph Convolutional Network for Skeletal Action Recognition via Learning Temporal-Frequency Dynamics [2.9578022754506605]
骨格に基づく行動認識では、グラフ畳み込みネットワーク(GCN)はその複雑さと高エネルギー消費のために制限に直面している。
本稿では、骨格配列の時間次元をスパイキング時間ステップとして活用するSignal-SGN(Spiking Graph Convolutional Network)を提案する。
実験により,提案モデルが既存のSNN法を精度で上回るだけでなく,学習時の計算記憶コストも低減できることがわかった。
論文 参考訳(メタデータ) (2024-08-03T07:47:16Z) - Scalable Graph Compressed Convolutions [68.85227170390864]
ユークリッド畳み込みのための入力グラフのキャリブレーションに置換を適用する微分可能手法を提案する。
グラフキャリブレーションに基づいて,階層型グラフ表現学習のための圧縮畳み込みネットワーク(CoCN)を提案する。
論文 参考訳(メタデータ) (2024-07-26T03:14:13Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - ASWT-SGNN: Adaptive Spectral Wavelet Transform-based Self-Supervised
Graph Neural Network [20.924559944655392]
本稿では,適応スペクトルウェーブレット変換を用いた自己教師付きグラフニューラルネットワーク(ASWT-SGNN)を提案する。
ASWT-SGNNは高密度スペクトル領域におけるフィルタ関数を正確に近似し、コストの高い固有分解を避ける。
ノード分類タスクにおける最先端モデルに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-10T03:07:42Z) - STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention
Transformer for Skeleton-based Action Recognition [0.0]
グラフ畳み込み畳み込みネットワークは、どのように異なるトポロジを学習し、グローバルな時間的および局所的な時間的共同機能を効果的に集約するかに焦点を当てる。
CTR-GCN(Channel-wise Topology Refinement Graph Convolution)に基づく3つのチャネルワイズトロイグラフ畳み込みを提案する。
我々は,NTU RGB+D, NTU RGB+D 120データセット上での高性能な空間時間有効ボディアテンション変換器という,強力なグラフ畳み込みネットワークを開発した。
論文 参考訳(メタデータ) (2023-12-06T04:36:58Z) - Adaptive Graph Convolution Networks for Traffic Flow Forecasting [4.398745005061698]
グラフニューラルネットワーク(GNN)におけるこの問題に対処する新しい適応グラフ畳み込みネットワーク(AGC-net)を提案する。
AGC-netは、新しいコンテキストアテンション機構に基づいて、Adaptive Graph Convolution (AGC)によって構築される。
2つのパブリックトラフィックデータセットの実験結果から,AGC-netの有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T09:55:41Z) - Is Attention All NeRF Needs? [103.51023982774599]
Generalizable NeRF Transformer (GNT) は、ソースビューから高速にNeRF(Neural Radiance Fields)を効率的に再構築する、純粋で統一されたトランスフォーマーベースのアーキテクチャである。
GNTは、2つのトランスフォーマーベースのステージをカプセル化することにより、一般化可能なニューラルシーン表現とレンダリングを実現する。
論文 参考訳(メタデータ) (2022-07-27T05:09:54Z) - Orthogonal Graph Neural Networks [53.466187667936026]
グラフニューラルネットワーク(GNN)は,ノード表現の学習において優れていたため,大きな注目を集めている。
より畳み込み層を積み重ねることで、GNNのパフォーマンスが大幅に低下する。
本稿では,モデルトレーニングの安定化とモデル一般化性能の向上のために,既存のGNNバックボーンを拡張可能なOrtho-GConvを提案する。
論文 参考訳(メタデータ) (2021-09-23T12:39:01Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。