論文の概要: GCsT: Graph Convolutional Skeleton Transformer for Action Recognition
- arxiv url: http://arxiv.org/abs/2109.02860v2
- Date: Wed, 8 Sep 2021 04:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 10:26:55.367203
- Title: GCsT: Graph Convolutional Skeleton Transformer for Action Recognition
- Title(参考訳): GCsT: 行動認識のためのグラフ畳み込み骨格変換器
- Authors: Ruwen Bai, Min Li, Bo Meng, Fengfa Li, Junxing Ren, Miao Jiang, Degang
Sun
- Abstract要約: グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において有望な性能を達成する。
ほとんどのGCNベースの手法では、時空間グラフの畳み込みはグラフトポロジーによって厳密に制限される。
本稿では,新しいアーキテクチャであるGraph Convolutional skeleton Transformer (GCsT)を提案する。
- 参考スコア(独自算出の注目度): 10.49514906434189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph convolutional networks (GCNs) achieve promising performance for
skeleton-based action recognition. However, in most GCN-based methods, the
spatial-temporal graph convolution is strictly restricted by the graph topology
while only captures the short-term temporal context, thus lacking the
flexibility of feature extraction. In this work, we present a novel
architecture, named Graph Convolutional skeleton Transformer (GCsT), which
addresses limitations in GCNs by introducing Transformer. Our GCsT employs all
the benefits of Transformer (i.e. dynamical attention and global context) while
keeps the advantages of GCNs (i.e. hierarchy and local topology structure). In
GCsT, the spatial-temporal GCN forces the capture of local dependencies while
Transformer dynamically extracts global spatial-temporal relationships.
Furthermore, the proposed GCsT shows stronger expressive capability by adding
additional information present in skeleton sequences. Incorporating the
Transformer allows that information to be introduced into the model almost
effortlessly. We validate the proposed GCsT by conducting extensive
experiments, which achieves the state-of-the-art performance on NTU RGB+D, NTU
RGB+D 120 and Northwestern-UCLA datasets.
- Abstract(参考訳): グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において有望な性能を達成する。
しかし、ほとんどのGCNベースの手法では、空間時間グラフの畳み込みはグラフトポロジによって厳格に制限されているが、短期時間文脈のみを捉えており、特徴抽出の柔軟性に欠ける。
本稿では, グラフ畳み込みトランスフォーマー (graph convolutional skeleton transformer, gcst) という新しいアーキテクチャを提案する。
当社のGCsTはTransformerのすべてのメリット(すなわち)を採用しています。
動的注意とグローバルコンテキスト)GCNの利点を維持しながら(すなわち)
階層構造と局所トポロジー構造)。
GCsTでは、空間時空間GCNは局所依存のキャプチャを強制し、Transformerはグローバル空間時空間関係を動的に抽出する。
さらに, 提案したGCsTは, スケルトン配列に存在する付加情報を追加することで, より強力な表現能力を示す。
Transformerを組み込むことで、ほとんど努力せずにモデルに情報を導入することができる。
NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAデータセットの最先端性能を実現するため, 広範な実験を行い, 提案したGCsTを検証する。
関連論文リスト
- ASWT-SGNN: Adaptive Spectral Wavelet Transform-based Self-Supervised
Graph Neural Network [20.924559944655392]
本稿では,適応スペクトルウェーブレット変換を用いた自己教師付きグラフニューラルネットワーク(ASWT-SGNN)を提案する。
ASWT-SGNNは高密度スペクトル領域におけるフィルタ関数を正確に近似し、コストの高い固有分解を避ける。
ノード分類タスクにおける最先端モデルに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-10T03:07:42Z) - STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention
Transformer for Skeleton-based Action Recognition [0.0]
グラフ畳み込み畳み込みネットワークは、どのように異なるトポロジを学習し、グローバルな時間的および局所的な時間的共同機能を効果的に集約するかに焦点を当てる。
CTR-GCN(Channel-wise Topology Refinement Graph Convolution)に基づく3つのチャネルワイズトロイグラフ畳み込みを提案する。
我々は,NTU RGB+D, NTU RGB+D 120データセット上での高性能な空間時間有効ボディアテンション変換器という,強力なグラフ畳み込みネットワークを開発した。
論文 参考訳(メタデータ) (2023-12-06T04:36:58Z) - Adaptive Graph Convolution Networks for Traffic Flow Forecasting [4.398745005061698]
グラフニューラルネットワーク(GNN)におけるこの問題に対処する新しい適応グラフ畳み込みネットワーク(AGC-net)を提案する。
AGC-netは、新しいコンテキストアテンション機構に基づいて、Adaptive Graph Convolution (AGC)によって構築される。
2つのパブリックトラフィックデータセットの実験結果から,AGC-netの有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T09:55:41Z) - AGFormer: Efficient Graph Representation with Anchor-Graph Transformer [95.1825252182316]
Anchor Graph Transformer (AGFormer) と呼ばれる新しいグラフトランスアーキテクチャを提案する。
AGFormerはまずいくつかの代表アンカーを取得し、次にノード間メッセージパッシングをアンカー間メッセージパッシングプロセスとアンカー間メッセージパッシングプロセスに変換する。
いくつかのベンチマークデータセットに対する大規模な実験は、提案されたAGFormerの有効性とメリットを示している。
論文 参考訳(メタデータ) (2023-05-12T14:35:42Z) - Is Attention All NeRF Needs? [103.51023982774599]
Generalizable NeRF Transformer (GNT) は、ソースビューから高速にNeRF(Neural Radiance Fields)を効率的に再構築する、純粋で統一されたトランスフォーマーベースのアーキテクチャである。
GNTは、2つのトランスフォーマーベースのステージをカプセル化することにより、一般化可能なニューラルシーン表現とレンダリングを実現する。
論文 参考訳(メタデータ) (2022-07-27T05:09:54Z) - Space-Time Graph Neural Networks [104.55175325870195]
本研究では、時空間グラフニューラルネットワーク(ST-GNN)を導入し、時間変動ネットワークデータの時空間トポロジを共同処理する。
解析の結果,システムのネットワークトポロジと時間進化の変動はST-GNNの性能に大きく影響しないことがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:08:44Z) - Orthogonal Graph Neural Networks [53.466187667936026]
グラフニューラルネットワーク(GNN)は,ノード表現の学習において優れていたため,大きな注目を集めている。
より畳み込み層を積み重ねることで、GNNのパフォーマンスが大幅に低下する。
本稿では,モデルトレーニングの安定化とモデル一般化性能の向上のために,既存のGNNバックボーンを拡張可能なOrtho-GConvを提案する。
論文 参考訳(メタデータ) (2021-09-23T12:39:01Z) - Edge-augmented Graph Transformers: Global Self-attention is Enough for
Graphs [24.796242917673755]
本稿では,変圧器の残差エッジチャネルに対する簡易かつ強力な拡張を提案する。
結果として得られるフレームワークは、Edge-augmented Graph Transformer (EGT)と呼ばれ、ノード情報だけでなく、構造情報を直接受け入れ、処理し、出力することができる。
我々のフレームワークはグローバルノードの特徴集約に依存しており、グラフ畳み込みネットワーク(GCN)よりも優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-07T02:18:11Z) - Channel-wise Topology Refinement Graph Convolution for Skeleton-Based
Action Recognition [40.103229224732196]
本稿では,CTR-GC(Channel-wise Topology Refinement Graph Convolution)を提案する。
本手法では,余分なパラメータをほとんど導入せず,チャネルワイズトポロジのモデル化の難しさを著しく低減する。
我々はCTR-GCNと呼ばれる強力なグラフ畳み込みネットワークを開発し、最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-07-26T13:37:50Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text
Generation [56.73834525802723]
軽量な動的グラフ畳み込みネットワーク (LDGCN) を提案する。
LDGCNは入力グラフから高次情報を合成することにより、よりリッチな非局所的な相互作用をキャプチャする。
我々は,グループグラフの畳み込みと重み付き畳み込みに基づく2つの新しいパラメータ保存戦略を開発し,メモリ使用量とモデル複雑性を低減する。
論文 参考訳(メタデータ) (2020-10-09T06:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。