論文の概要: Hypergraph Transformer for Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2211.09590v1
- Date: Thu, 17 Nov 2022 15:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:28:32.322947
- Title: Hypergraph Transformer for Skeleton-based Action Recognition
- Title(参考訳): スケルトンベース動作認識のためのハイパーグラフトランスフォーマ
- Authors: Yuxuan Zhou, Chao Li, Zhi-Qi Cheng, Yifeng Geng, Xuansong Xie, Margret
Keuper
- Abstract要約: スケルトンをベースとした行動認識は、人間の関節の座標と骨格の相互接続が与えられたときの人間の行動を予測することを目的としている。
グラフ畳み込みネットワーク(GCN)を用いた最先端手法の変圧器はまだ遅れている
モデルに本質的に高次関係を組み込むために,Hypergraph Self-Attention (HyperSA) と呼ばれる新たな自己注意拡張を提案する。
- 参考スコア(独自算出の注目度): 23.061314285080204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based action recognition aims to predict human actions given human
joint coordinates with skeletal interconnections. To model such off-grid data
points and their co-occurrences, Transformer-based formulations would be a
natural choice. However, Transformers still lag behind state-of-the-art methods
using graph convolutional networks (GCNs). Transformers assume that the input
is permutation-invariant and homogeneous (partially alleviated by positional
encoding), which ignores an important characteristic of skeleton data, i.e.,
bone connectivity. Furthermore, each type of body joint has a clear physical
meaning in human motion, i.e., motion retains an intrinsic relationship
regardless of the joint coordinates, which is not explored in Transformers. In
fact, certain re-occurring groups of body joints are often involved in specific
actions, such as the subconscious hand movement for keeping balance. Vanilla
attention is incapable of describing such underlying relations that are
persistent and beyond pair-wise. In this work, we aim to exploit these unique
aspects of skeleton data to close the performance gap between Transformers and
GCNs. Specifically, we propose a new self-attention (SA) extension, named
Hypergraph Self-Attention (HyperSA), to incorporate inherently higher-order
relations into the model. The K-hop relative positional embeddings are also
employed to take bone connectivity into account. We name the resulting model
Hyperformer, and it achieves comparable or better performance w.r.t. accuracy
and efficiency than state-of-the-art GCN architectures on NTU RGB+D, NTU RGB+D
120, and Northwestern-UCLA datasets. On the largest NTU RGB+D 120 dataset, the
significantly improved performance reached by our Hyperformer demonstrates the
underestimated potential of Transformer models in this field.
- Abstract(参考訳): スケルトンに基づく行動認識は、骨格相互結合を伴う人間の関節座標によって人間の行動を予測することを目的としている。
このようなオフグリッドデータポイントとその共起をモデル化するには、トランスフォーマーベースの定式化が自然な選択となるだろう。
しかし、トランスフォーマーはグラフ畳み込みネットワーク(GCN)を用いた最先端の手法をまだ遅れている。
トランスフォーマーは入力が置換不変で均質(位置符号化によって部分的に緩和される)であると仮定し、骨格データ、すなわち骨接続の重要な特性を無視している。
さらに、身体関節の各タイプは、人間の運動において明確な物理的意味を持ち、すなわち、運動は、トランスフォーマーでは研究されていない関節座標に関係なく内在的な関係を保っている。
実際には、身体関節の特定の再帰グループは、バランスを保つための意識下手の動きなど、特定の行動に関与していることが多い。
バニラの注意は、永続的でペアワイド以上の基礎的な関係を記述することができない。
本研究では,トランスフォーマーとGCNのパフォーマンスギャップを埋めるために,これらのスケルトンデータのユニークな側面を活用することを目的とする。
具体的には,ハイパーグラフ自己注意(Hypergraph Self-Attention, HyperSA)と呼ばれる新たな自己注意拡張を提案する。
Kホップの相対的な位置埋め込みも骨の接続性を考慮して用いられる。
NTU RGB+D, NTU RGB+D 120, Northwestern-UCLAデータセット上の最先端のGCNアーキテクチャと比較すると, 同等あるいは優れた性能を実現することができる。
最大のNTU RGB+D 120データセットでは、Hyperformerが到達した大幅な性能向上が、この分野におけるTransformerモデルの過小評価可能性を示している。
関連論文リスト
- Autoregressive Adaptive Hypergraph Transformer for Skeleton-based Activity Recognition [3.700463358780727]
本稿では,自己回帰型適応型ハイパーグラフ変換器(AutoregAd-HGformer)モデルを提案する。
強力な自己回帰学習先を備えたベクトル量子化内相ハイパーグラフは、ハイパーエッジ形成に適したより堅牢で情報的な表現を生成する。
AutoregAd-HGformerにおけるハイブリッド(教師なし、教師なし)学習は、空間的、時間的、チャネル次元に沿った行動依存的な特徴を探索する。
論文 参考訳(メタデータ) (2024-11-08T16:45:52Z) - Cell Graph Transformer for Nuclei Classification [78.47566396839628]
我々は,ノードとエッジを入力トークンとして扱うセルグラフ変換器(CGT)を開発した。
不愉快な特徴は、騒々しい自己注意スコアと劣等な収束につながる可能性がある。
グラフ畳み込みネットワーク(GCN)を利用して特徴抽出器を学習する新しいトポロジ対応事前学習法を提案する。
論文 参考訳(メタデータ) (2024-02-20T12:01:30Z) - Overcoming Topology Agnosticism: Enhancing Skeleton-Based Action
Recognition through Redefined Skeletal Topology Awareness [24.83836008577395]
グラフ畳み込みネットワーク(GCN)は長い間、骨格に基づく行動認識の最先端を定義してきた。
彼らはモデルの重みとともに隣接行列を最適化する傾向がある。
このプロセスは、骨接続データの段階的な崩壊を引き起こし、マッピングしようとしたトポロジとは無関係なモデルで終わる。
本稿では,骨の接続性をグラフ距離のパワーを利用して符号化する革新的な経路を提案する。
論文 参考訳(メタデータ) (2023-05-19T06:40:12Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Dynamic Hypergraph Convolutional Networks for Skeleton-Based Action
Recognition [22.188135882864287]
骨格に基づく行動認識のための動的ハイパーグラフ畳み込みネットワーク(DHGCN)を提案する。
DHGCNはハイパーグラフを使用して骨格構造を表現し、ヒト関節に含まれる運動情報を効果的に活用する。
論文 参考訳(メタデータ) (2021-12-20T14:46:14Z) - A Deep Latent Space Model for Graph Representation Learning [10.914558012458425]
本稿では,従来の潜時変動に基づく生成モデルをディープラーニングフレームワークに組み込むために,有向グラフのための深潜時空間モデル(DLSM)を提案する。
提案モデルは,階層的変動型オートエンコーダアーキテクチャによって階層的に接続されるグラフ畳み込みネットワーク(GCN)エンコーダとデコーダから構成される。
実世界のデータセットにおける実験により,提案モデルがリンク予測とコミュニティ検出の両タスクにおける最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-06-22T12:41:19Z) - Multi Scale Temporal Graph Networks For Skeleton-based Action
Recognition [5.970574258839858]
グラフ畳み込みネットワーク(GCN)は、関連するノードの特徴を効果的に捉え、モデルの性能を向上させる。
まず、時間的特徴と空間的特徴の整合性を無視し、特徴をノード単位とフレーム単位で抽出する。
本稿では,行動認識のための時間グラフネットワーク(TGN)と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-05T08:08:25Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - My Body is a Cage: the Role of Morphology in Graph-Based Incompatible
Control [65.77164390203396]
本稿では,グラフにエンコードされた形態情報により,その性能が向上しないことを示す既存手法に関する一連のアブリケーションを示す。
グラフ構造からGNNが抽出した利益は、メッセージパッシングのために生じる困難によって上回っているという仮説により、Amorpheusも提案する。
論文 参考訳(メタデータ) (2020-10-05T08:37:11Z) - Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action
Recognition [57.98278794950759]
グラフ畳み込みネットワーク(GCN)はすでに、不規則なデータをモデル化する強力な能力を実証している。
本稿では,ポアンカー幾何学を用いて定義した空間時空間GCNアーキテクチャを提案する。
提案手法を,現在最大規模の2つの3次元データセット上で評価する。
論文 参考訳(メタデータ) (2020-07-30T18:23:18Z) - Revisiting Graph based Collaborative Filtering: A Linear Residual Graph
Convolutional Network Approach [55.44107800525776]
グラフ畳み込みネットワーク(GCN)は、最先端のグラフベースの表現学習モデルである。
本稿では、GCNベースの協調フィルタリング(CF)ベースのレコメンダシステム(RS)について再検討する。
単純なグラフ畳み込みネットワークの理論と整合して,非線形性を取り除くことで推奨性能が向上することを示す。
本稿では,ユーザ・イテム相互作用モデリングを用いたCF用に特別に設計された残差ネットワーク構造を提案する。
論文 参考訳(メタデータ) (2020-01-28T04:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。