論文の概要: Topology-aware MLP for Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2308.16018v2
- Date: Mon, 4 Sep 2023 07:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 02:29:29.504906
- Title: Topology-aware MLP for Skeleton-based Action Recognition
- Title(参考訳): 骨格に基づく行動認識のための位相認識型MLP
- Authors: Shaojie Zhang, Jianqin Yin, Yonghao Dang and Jiajun Fu
- Abstract要約: グラフ畳み込みネットワーク(GCN)は骨格行動認識において顕著な性能を発揮している。
従来のGCNベースの手法は、精巧な人体に過剰に依存しており、複雑な特徴集約機構を構築している。
本稿では,空間トポロジゲーティングユニット(STGU)を提案する。
本研究では,骨格に基づく行動認識のための最初のトポロジ対応入力モデルTa-MLPを提案する。
- 参考スコア(独自算出の注目度): 10.567609719322483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph convolution networks (GCNs) have achieved remarkable performance in
skeleton-based action recognition. However, existing previous GCN-based methods
have relied excessively on elaborate human body priors and constructed complex
feature aggregation mechanisms, which limits the generalizability of networks.
To solve these problems, we propose a novel Spatial Topology Gating Unit
(STGU), which is an MLP-based variant without extra priors, to capture the
co-occurrence topology features that encode the spatial dependency across all
joints. In STGU, to model the sample-specific and completely independent
point-wise topology attention, a new gate-based feature interaction mechanism
is introduced to activate the features point-to-point by the attention map
generated from the input. Based on the STGU, in this work, we propose the first
topology-aware MLP-based model, Ta-MLP, for skeleton-based action recognition.
In comparison with existing previous methods on three large-scale datasets,
Ta-MLP achieves competitive performance. In addition, Ta-MLP reduces the
parameters by up to 62.5% with favorable results. Compared with previous
state-of-the-art (SOAT) approaches, Ta-MLP pushes the frontier of real-time
action recognition. The code will be available at
https://github.com/BUPTSJZhang/Ta-MLP.
- Abstract(参考訳): グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において顕著な性能を発揮する。
しかし、既存のgcnベースの手法は精巧な人体前処理に過剰に依存しており、ネットワークの一般化性を制限する複雑な特徴集約機構を構築している。
これらの問題を解決するために, 余分な事前条件を伴わずに MLP ベースの変種である空間位相ゲーティングユニット (STGU) を提案し, 空間依存性を全関節にエンコードする共起位相特徴を捉える。
STGUでは、サンプル固有かつ完全に独立した点対応トポロジ注意をモデル化するために、入力から生成された注目マップによって特徴点間を活性化する新しいゲートベースの特徴相互作用機構を導入する。
本稿では,STGUに基づいて,骨格に基づく行動認識のための最初のトポロジ対応MLPモデルTa-MLPを提案する。
3つの大規模データセットの既存の手法と比較して、Ta-MLPは競争力のある性能を達成する。
さらに、Ta-MLPはパラメータを62.5%まで削減し、良好な結果を得る。
従来のSOAT(State-of-the-art)アプローチと比較して、Ta-MLPはリアルタイムアクション認識のフロンティアを推進している。
コードはhttps://github.com/BUPTSJZhang/Ta-MLPで入手できる。
関連論文リスト
- Kolmogorov-Arnold Network for Online Reinforcement Learning [0.22615818641180724]
Kolmogorov-Arnold Networks (KANs)は、ニューラルネットワークにおけるMLP(Multi-Layer Perceptrons)の代替としての可能性を示している。
Kansはパラメータが少なく、メモリ使用量が減ったユニバーサル関数近似を提供する。
論文 参考訳(メタデータ) (2024-08-09T03:32:37Z) - NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning [40.994306592119266]
訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
いくつかの一般的なアプローチ(量子化や蒸留など)は、PLM微細チューニングの計算/メモリを減らすために広く研究されている。
我々は、NTK近似モジュールを融合して軽量PLMを作成することを提案する。
論文 参考訳(メタデータ) (2023-07-18T03:12:51Z) - Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。
入力として、事前訓練された不変量の重みとバイアスの連結をとる。
これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文 参考訳(メタデータ) (2023-01-30T10:50:33Z) - OST: Efficient One-stream Network for 3D Single Object Tracking in Point Clouds [6.661881950861012]
本稿では,従来のシームズネットワークで発生した相関操作を回避するために,インスタンスレベルのエンコーディングの強みを活かした新しい一ストリームネットワークを提案する。
提案手法は,クラス固有のトラッキングだけでなく,より少ない計算と高い効率でクラスに依存しないトラッキングを実現する。
論文 参考訳(メタデータ) (2022-10-16T12:31:59Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - Rethinking Network Design and Local Geometry in Point Cloud: A Simple
Residual MLP Framework [55.40001810884942]
我々は、洗練された局所幾何学的抽出器を組み込んだ純粋な残留ネットワークPointMLPを導入するが、それでも非常に競争力がある。
実世界のScanObjectNNデータセットでは,従来のベストメソッドを3.3%の精度で上回ります。
最新のCurveNetと比較して、PointMLPは2倍速く、テストは7倍速く、ModelNet40ベンチマークではより正確である。
論文 参考訳(メタデータ) (2022-02-15T01:39:07Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。