論文の概要: 3Mformer: Multi-order Multi-mode Transformer for Skeletal Action
Recognition
- arxiv url: http://arxiv.org/abs/2303.14474v1
- Date: Sat, 25 Mar 2023 14:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:35:04.107748
- Title: 3Mformer: Multi-order Multi-mode Transformer for Skeletal Action
Recognition
- Title(参考訳): 3mformer:骨格動作認識のためのマルチオーダーマルチモードトランスフォーマ
- Authors: Lei Wang and Piotr Koniusz
- Abstract要約: 多くの骨格行動認識モデルは、人体を3次元の関節で繋がった体で表すのにGCNを使用する。
本稿では,グラフノード間のハイパーエッジをモデル化するハイパーグラフを提案する。
我々のエンドツーエンドのトレーニング可能なネットワークは、GCN-、Transformer-、Hypergraph-basedと比較すると、最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 38.27785891922479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many skeletal action recognition models use GCNs to represent the human body
by 3D body joints connected body parts. GCNs aggregate one- or few-hop graph
neighbourhoods, and ignore the dependency between not linked body joints. We
propose to form hypergraph to model hyper-edges between graph nodes (e.g.,
third- and fourth-order hyper-edges capture three and four nodes) which help
capture higher-order motion patterns of groups of body joints. We split action
sequences into temporal blocks, Higher-order Transformer (HoT) produces
embeddings of each temporal block based on (i) the body joints, (ii) pairwise
links of body joints and (iii) higher-order hyper-edges of skeleton body
joints. We combine such HoT embeddings of hyper-edges of orders 1, ..., r by a
novel Multi-order Multi-mode Transformer (3Mformer) with two modules whose
order can be exchanged to achieve coupled-mode attention on coupled-mode tokens
based on 'channel-temporal block', 'order-channel-body joint',
'channel-hyper-edge (any order)' and 'channel-only' pairs. The first module,
called Multi-order Pooling (MP), additionally learns weighted aggregation along
the hyper-edge mode, whereas the second module, Temporal block Pooling (TP),
aggregates along the temporal block mode. Our end-to-end trainable network
yields state-of-the-art results compared to GCN-, transformer- and
hypergraph-based counterparts.
- Abstract(参考訳): 多くの骨格行動認識モデルは、人体を3次元の関節で繋がった体で表すのにGCNを使用する。
gcnsは1つまたは少数のホップグラフを集約し、連結されていない身体関節間の依存性を無視する。
身体関節群の高次運動パターンを捉えるために,グラフノード間のハイパーエッジをモデル化するハイパーグラフ(第3および第4次ハイパーエッジをキャプチャする)を提案する。
我々はアクションシーケンスを時間ブロックに分割し、高次変換器(HoT)は時間ブロックの埋め込みを生成する。
(i)身体関節。
(ii)身体関節の対関係、及び
(III)骨格体関節の高次ハイパーエッジ。
命令1, ..., r のハイパーエッジの HoT 埋め込みを、新しいマルチオーダーマルチモード変換器 (3Mformer) と、'チャネル時間ブロック' 、'オーダーチャネルボディジョイント' 、'チャネルハイパーエッジ(任意の順序)' 、'チャネルオンリーのペア' に基づく結合モードトークンに対する結合モードの注意を得るために、2つのモジュールと組み合わせる。
第1モジュールはmulti-order pooling (mp)と呼ばれ、さらにハイパーエッジモードに沿って重み付けアグリゲーションを学び、第2モジュールであるtemporal block pooling (tp) はテンポラリブロックモードに沿って集約する。
我々のエンドツーエンドのトレーニング可能なネットワークは、GCN-、Transformer-、Hypergraph-basedと比較すると、最先端の結果が得られる。
関連論文リスト
- Regular Splitting Graph Network for 3D Human Pose Estimation [5.177947445379688]
2次元から3次元の人間のポーズ推定のための高次正規分割グラフネットワーク(RS-Net)を提案する。
近年の3次元ポーズ推定における最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-09T22:13:04Z) - Temporal-Viewpoint Transportation Plan for Skeletal Few-shot Action
Recognition [38.27785891922479]
Joint tEmporalとcAmera viewpoiNt alIgnmEntによる3Dスケルトンに基づく動作認識のためのFew-shot Learning Pipeline
論文 参考訳(メタデータ) (2022-10-30T11:46:38Z) - DG-STGCN: Dynamic Spatial-Temporal Modeling for Skeleton-based Action
Recognition [77.87404524458809]
骨格に基づく行動認識のための新しいフレームワーク,すなわち動的グループ時空間GCN(DG-STGCN)を提案する。
DG-GCNとDG-TCNの2つのモジュールで構成される。
DG-STGCNは最先端の手法よりも一貫して優れており、しばしば顕著な差がある。
論文 参考訳(メタデータ) (2022-10-12T03:17:37Z) - Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition [13.15374205970988]
本稿では,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
MS-GCおよびMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残差アーキテクチャを形成する。
本稿では,マルチスケールな時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
論文 参考訳(メタデータ) (2022-06-27T03:17:33Z) - 3D Skeleton-based Few-shot Action Recognition with JEANIE is not so
Na\"ive [28.720272938306692]
We propose a Few-shot Learning pipeline for 3D skeleton-based action recognition by Joint tEmporal and cAmera viewpoiNt alIgnmEnt。
論文 参考訳(メタデータ) (2021-12-23T16:09:23Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z) - Tensor Representations for Action Recognition [54.710267354274194]
シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
論文 参考訳(メタデータ) (2020-12-28T17:27:18Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。