論文の概要: Synchronized and Fine-Grained Head for Skeleton-Based Ambiguous Action Recognition
- arxiv url: http://arxiv.org/abs/2412.14833v1
- Date: Thu, 19 Dec 2024 13:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 18:44:16.137778
- Title: Synchronized and Fine-Grained Head for Skeleton-Based Ambiguous Action Recognition
- Title(参考訳): 骨格に基づくあいまいな行動認識のためのシンクロナイズドヘッドとファイングラインドヘッド
- Authors: Hao Huang, Yujie Lin, Siyu Chen, Haiyang Liu,
- Abstract要約: GCNを用いた骨格に基づく行動認識は目覚ましい性能を達成しているが、"Wving"や"Saluting"といったあいまいな行動を認識することは大きな課題である。
既存の手法はGCNとTCNのシリアルな組み合わせに依存しており、空間的特徴と時間的特徴は独立して抽出される。
本稿では,GCN層とTCN層の間に挿入されたSynchronized and Fine-fine Head (SF-Head) と呼ばれる軽量なプラグアンドプレイモジュールを提案する。
- 参考スコア(独自算出の注目度): 15.892253631768703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based action recognition using GCNs has achieved remarkable performance, but recognizing ambiguous actions, such as "waving" and "saluting", remains a significant challenge. Existing methods typically rely on a serial combination of GCNs and TCNs, where spatial and temporal features are extracted independently, leading to an unbalanced spatial-temporal information, which hinders accurate action recognition. Moreover, existing methods for ambiguous actions often overemphasize local details, resulting in the loss of crucial global context, which further complicates the task of differentiating ambiguous actions. To address these challenges, we propose a lightweight plug-and-play module called Synchronized and Fine-grained Head (SF-Head), inserted between GCN and TCN layers. SF-Head first conducts Synchronized Spatial-Temporal Extraction (SSTE) with a Feature Redundancy Loss (F-RL), ensuring a balanced interaction between the two types of features. It then performs Adaptive Cross-dimensional Feature Aggregation (AC-FA), with a Feature Consistency Loss (F-CL), which aligns the aggregated feature with their original spatial-temporal feature. This aggregation step effectively combines both global context and local details. Experimental results on NTU RGB+D 60, NTU RGB+D 120, and NW-UCLA datasets demonstrate significant improvements in distinguishing ambiguous actions. Our code will be made available at https://github.com/HaoHuang2003/SFHead.
- Abstract(参考訳): GCNを用いた骨格に基づく行動認識は目覚ましい性能を達成しているが、"Wving"や"Saluting"といったあいまいな行動を認識することは大きな課題である。
既存の手法は一般にGCNとTCNのシリアルな組み合わせに依存しており、空間的特徴と時間的特徴は独立して抽出される。
さらに、あいまいな行動の既存の方法は、しばしば局所的な詳細を過度に強調し、重要なグローバルな文脈が失われ、あいまいな行為を区別する作業がさらに複雑になる。
これらの課題に対処するために,GCN層とTCN層の間に挿入されたSynchronized and Fine-fine Head (SF-Head) と呼ばれる軽量なプラグアンドプレイモジュールを提案する。
SF-Headはまず、特徴冗長損失(F-RL)と同期空間時間抽出(SSTE)を行い、2種類の特徴間のバランスの取れた相互作用を確保する。
次に、アダプティブ・クロス次元特徴集合(AC-FA)と、アダプティブ・クロス次元特徴集合(F-CL)を用いて、アダプティブ・クロス次元特徴集合(AC-FA)を実行する。
この集約ステップは、グローバルコンテキストとローカル詳細の両方を効果的に結合する。
NTU RGB+D 60, NTU RGB+D 120, NW-UCLAデータセットの実験結果から, あいまいな動作の識別において顕著な改善が認められた。
私たちのコードはhttps://github.com/HaoHuang2003/SFHead.comで公開されます。
関連論文リスト
- Spatial-Temporal Perception with Causal Inference for Naturalistic Driving Action Recognition [6.115044825582411]
自動車キャビン監視システムには, 自然な運転行動認識が不可欠である。
これまでのアプローチでは、微妙な振る舞いの違いを観察する能力が限られていたため、実践的な実装に苦労してきた。
本稿では,時間的情報と空間的関係を両立する空間的知覚アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-03-06T04:28:11Z) - Generalized Uncertainty-Based Evidential Fusion with Hybrid Multi-Head Attention for Weak-Supervised Temporal Action Localization [28.005080560540133]
弱教師付き時間的アクションローカライゼーション(WS-TAL)は、完全なアクションインスタンスをローカライズし、それらをビデオレベルのラベルに分類するタスクである。
動作背景のあいまいさは、主にアグリゲーションと動作内変動に起因するバックグラウンドノイズによって引き起こされるものであり、既存のWS-TAL手法にとって重要な課題である。
本稿では,ハイブリッドマルチヘッドアテンション(HMHA)モジュールと一般化された不確実性に基づく明らかな融合(GUEF)モジュールを導入し,この問題に対処する。
論文 参考訳(メタデータ) (2024-12-27T03:04:57Z) - Causality-inspired Discriminative Feature Learning in Triple Domains for Gait Recognition [36.55724380184354]
CLTDは、三重ドメイン、すなわち空間、時間、スペクトルにおける共同創設者の影響を排除するために設計された識別的特徴学習モジュールである。
具体的には、Cross Pixel-wise Attention Generator (CPAG)を用いて、空間的および時間的領域における実物的特徴と反物的特徴の注意分布を生成する。
次に、FPH(Fourier Projection Head)を導入し、空間的特徴をスペクトル空間に投影し、計算コストを低減しつつ重要な情報を保存する。
論文 参考訳(メタデータ) (2024-07-17T12:16:44Z) - Wavelet-Decoupling Contrastive Enhancement Network for Fine-Grained
Skeleton-Based Action Recognition [8.743480762121937]
本稿ではウェーブレット・アテンション・デカップリング(WAD)モジュールを提案する。
また,コントラスト学習によるトラジェクティブ特徴に対する注意を高めるために,FCEモジュールを提案する。
提案手法は最先端の手法と競合して動作し,微粒な動作を適切に識別することができる。
論文 参考訳(メタデータ) (2024-02-03T16:51:04Z) - Unsupervised Spatial-Temporal Feature Enrichment and Fidelity
Preservation Network for Skeleton based Action Recognition [20.07820929037547]
非教師なし骨格に基づく行動認識は近年顕著な進歩を遂げている。
既存の教師なし学習手法は、過度なオーバーフィッティング問題に悩まされる。
本稿では,高機能化を実現するために,非教師付き時空間特徴強調・忠実度保存フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T09:24:07Z) - Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based
Human Action Recognition [10.403751563214113]
STD-CLは、配列から識別的および意味的に異なる表現を得るためのフレームワークである。
STD-CLは、NTU60、NTU120、NW-UCLAベンチマークでしっかりと改善されている。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial
Expression Recognition [19.5702895176141]
野生の表情認識(DFER)の従来の方法は、主にCNN(Convolutional Neural Networks)に基づいており、ローカル操作はビデオの長距離依存性を無視している。
DFERのトランスフォーマーを用いた性能向上手法を提案するが,高いFLOPと計算コストが生じる。
DFEW と FERV39K の2つの動的表情データセットの実験結果から,DFER の空間的および時間的依存関係を効果的に活用する方法が示唆された。
論文 参考訳(メタデータ) (2023-05-05T07:53:13Z) - Local-Global Temporal Difference Learning for Satellite Video
Super-Resolution [55.69322525367221]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Learning Discriminative Representations for Skeleton Based Action
Recognition [49.45405879193866]
本稿では,骨格の識別表現を得るために,補助機能改善ヘッド(FRヘッド)を提案する。
提案したモデルでは,最先端手法による競合結果が得られ,あいまいなサンプルの識別に役立てることができる。
論文 参考訳(メタデータ) (2023-03-07T08:37:48Z) - Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences [29.376328807860993]
本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。
提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-17T17:35:05Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - HAN: An Efficient Hierarchical Self-Attention Network for Skeleton-Based
Gesture Recognition [73.64451471862613]
骨格に基づくジェスチャー認識のための効率的な階層型自己認識ネットワーク(HAN)を提案する。
ジョイント・セルフアテンション・モジュールは指の空間的特徴を捉え、指の自己アテンション・モジュールは手全体の特徴を集約するように設計されている。
実験の結果,3つのジェスチャ認識データセットに対して,計算複雑性がはるかに低い競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-06-25T02:15:53Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。