論文の概要: PSUMNet: Unified Modality Part Streams are All You Need for Efficient
Pose-based Action Recognition
- arxiv url: http://arxiv.org/abs/2208.05775v1
- Date: Thu, 11 Aug 2022 12:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:48:48.667068
- Title: PSUMNet: Unified Modality Part Streams are All You Need for Efficient
Pose-based Action Recognition
- Title(参考訳): psumnet:unified modality part streamsは、効率的なポーズベースのアクション認識に必要なすべて
- Authors: Neel Trivedi, Ravi Kiran Sarvadevabhatla
- Abstract要約: 我々は、スケーラブルで効率的なポーズベースのアクション認識のための新しいアプローチPSUMNetを紹介する。
表現レベルでは、従来のモダリティに基づくストリームとは対照的に、グローバルなフレームベースの部分ストリームアプローチを提案する。
PSUMNetは非常に効率的で、100%-400%以上のパラメータを使用する競合メソッドよりも優れています。
- 参考スコア(独自算出の注目度): 10.340665633567081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pose-based action recognition is predominantly tackled by approaches which
treat the input skeleton in a monolithic fashion, i.e. joints in the pose tree
are processed as a whole. However, such approaches ignore the fact that action
categories are often characterized by localized action dynamics involving only
small subsets of part joint groups involving hands (e.g. `Thumbs up') or legs
(e.g. `Kicking'). Although part-grouping based approaches exist, each part
group is not considered within the global pose frame, causing such methods to
fall short. Further, conventional approaches employ independent modality
streams (e.g. joint, bone, joint velocity, bone velocity) and train their
network multiple times on these streams, which massively increases the number
of training parameters. To address these issues, we introduce PSUMNet, a novel
approach for scalable and efficient pose-based action recognition. At the
representation level, we propose a global frame based part stream approach as
opposed to conventional modality based streams. Within each part stream, the
associated data from multiple modalities is unified and consumed by the
processing pipeline. Experimentally, PSUMNet achieves state of the art
performance on the widely used NTURGB+D 60/120 dataset and dense joint skeleton
dataset NTU 60-X/120-X. PSUMNet is highly efficient and outperforms competing
methods which use 100%-400% more parameters. PSUMNet also generalizes to the
SHREC hand gesture dataset with competitive performance. Overall, PSUMNet's
scalability, performance and efficiency makes it an attractive choice for
action recognition and for deployment on compute-restricted embedded and edge
devices. Code and pretrained models can be accessed at
https://github.com/skelemoa/psumnet
- Abstract(参考訳): ポーズベースの動作認識は、入力骨格をモノリシックな方法で扱うアプローチ、すなわちポーズツリーの関節全体を処理するアプローチによって、主に取り組まれている。
しかし、このようなアプローチは、手を含む部分関節群(例えば、"Thumbs up")や脚(例えば、"Kicking")の小さな部分集合のみを含む局所的な作用ダイナミクスによって特徴付けられるという事実を無視している。
部分群に基づくアプローチは存在するが、各部分群はグローバルなポーズフレームには含まれておらず、そのような手法が不足する。
さらに、従来のアプローチでは、独立したモダリティストリーム(関節、骨、関節速度、骨速度など)を採用し、これらのストリーム上で複数のネットワークをトレーニングすることで、トレーニングパラメータの数を大幅に増加させる。
これらの問題に対処するため,我々は,スケーラブルで効率的なポーズベース行動認識のための新しいアプローチであるpsumnetを紹介する。
表現レベルでは、従来のモダリティに基づくストリームとは対照的に、グローバルなフレームベースの部分ストリームアプローチを提案する。
各部分ストリーム内では、複数のモダリティからの関連データが統一され、処理パイプラインによって消費される。
実験的にPSUMNetは、広く使われているNTURGB+D 60/120データセットと密度の高い関節骨格データセットNTU 60-X/120-X上でのアートパフォーマンスの状態を達成している。
PSUMNetは非常に効率的で、100%-400%以上のパラメータを使用する競合メソッドよりも優れている。
PSUMNetはまた、競争力のあるパフォーマンスでSHRECハンドジェスチャデータセットに一般化する。
全体として、psumnetのスケーラビリティ、パフォーマンス、効率性は、アクション認識や計算制限のある組み込みおよびエッジデバイスへのデプロイに魅力的な選択肢となります。
コードと事前トレーニングされたモデルはhttps://github.com/skelemoa/psumnetでアクセスできる。
関連論文リスト
- Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - Explore Human Parsing Modality for Action Recognition [17.624946657761996]
我々はEnsemble Human Parsing and Pose Network(EPP-Net)と呼ばれる新しいデュアルブランチフレームワークを提案する。
EPP-Netは、スケルトンと人間の解析モダリティの両方を行動認識に利用した最初の企業である。
論文 参考訳(メタデータ) (2024-01-04T08:43:41Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - FV-UPatches: Enhancing Universality in Finger Vein Recognition [0.6299766708197883]
限られたデータで学習しながら一般化を実現するユニバーサルラーニングベースのフレームワークを提案する。
提案フレームワークは、他の静脈ベースの生体認証にも応用可能性を示す。
論文 参考訳(メタデータ) (2022-06-02T14:20:22Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - UNIK: A Unified Framework for Real-world Skeleton-based Action
Recognition [11.81043814295441]
UNIKは、データセットをまたいで一般化できる新しい骨格に基づく行動認識手法である。
実世界のビデオにおける行動認識のクロスドメイン一般化可能性について検討するため,提案したUNIKと同様に最先端のアプローチを再評価する。
その結果,提案したUNIKは,Poseticsを事前学習した上で,4つのターゲットアクション分類データセットに転送した場合に,最先端の処理性能を向上することがわかった。
論文 参考訳(メタデータ) (2021-07-19T02:00:28Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - JOLO-GCN: Mining Joint-Centered Light-Weight Information for
Skeleton-Based Action Recognition [47.47099206295254]
本稿では,2ストリームグラフ畳み込みネットワークにおいて,人間のポーズスケルトンと共同中心の軽量情報を活用するための新しいフレームワークを提案する。
純粋なスケルトンベースのベースラインと比較して、このハイブリッドスキームは、計算とメモリのオーバーヘッドを低く保ちながら、性能を効果的に向上させる。
論文 参考訳(メタデータ) (2020-11-16T08:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。