論文の概要: Synchronized and Fine-Grained Head for Skeleton-Based Ambiguous Action Recognition
- arxiv url: http://arxiv.org/abs/2412.14833v1
- Date: Thu, 19 Dec 2024 13:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:14.560891
- Title: Synchronized and Fine-Grained Head for Skeleton-Based Ambiguous Action Recognition
- Title(参考訳): 骨格に基づくあいまいな行動認識のためのシンクロナイズドヘッドとファイングラインドヘッド
- Authors: Hao Huang, Yujie Lin, Siyu Chen, Haiyang Liu,
- Abstract要約: GCNを用いた骨格に基づく行動認識は目覚ましい性能を達成しているが、"Wving"や"Saluting"といったあいまいな行動を認識することは大きな課題である。
既存の手法はGCNとTCNのシリアルな組み合わせに依存しており、空間的特徴と時間的特徴は独立して抽出される。
本稿では,GCN層とTCN層の間に挿入されたSynchronized and Fine-fine Head (SF-Head) と呼ばれる軽量なプラグアンドプレイモジュールを提案する。
- 参考スコア(独自算出の注目度): 15.892253631768703
- License:
- Abstract: Skeleton-based action recognition using GCNs has achieved remarkable performance, but recognizing ambiguous actions, such as "waving" and "saluting", remains a significant challenge. Existing methods typically rely on a serial combination of GCNs and TCNs, where spatial and temporal features are extracted independently, leading to an unbalanced spatial-temporal information, which hinders accurate action recognition. Moreover, existing methods for ambiguous actions often overemphasize local details, resulting in the loss of crucial global context, which further complicates the task of differentiating ambiguous actions. To address these challenges, we propose a lightweight plug-and-play module called Synchronized and Fine-grained Head (SF-Head), inserted between GCN and TCN layers. SF-Head first conducts Synchronized Spatial-Temporal Extraction (SSTE) with a Feature Redundancy Loss (F-RL), ensuring a balanced interaction between the two types of features. It then performs Adaptive Cross-dimensional Feature Aggregation (AC-FA), with a Feature Consistency Loss (F-CL), which aligns the aggregated feature with their original spatial-temporal feature. This aggregation step effectively combines both global context and local details. Experimental results on NTU RGB+D 60, NTU RGB+D 120, and NW-UCLA datasets demonstrate significant improvements in distinguishing ambiguous actions. Our code will be made available at https://github.com/HaoHuang2003/SFHead.
- Abstract(参考訳): GCNを用いた骨格に基づく行動認識は目覚ましい性能を達成しているが、"Wving"や"Saluting"といったあいまいな行動を認識することは大きな課題である。
既存の手法は一般にGCNとTCNのシリアルな組み合わせに依存しており、空間的特徴と時間的特徴は独立して抽出される。
さらに、あいまいな行動の既存の方法は、しばしば局所的な詳細を過度に強調し、重要なグローバルな文脈が失われ、あいまいな行為を区別する作業がさらに複雑になる。
これらの課題に対処するために,GCN層とTCN層の間に挿入されたSynchronized and Fine-fine Head (SF-Head) と呼ばれる軽量なプラグアンドプレイモジュールを提案する。
SF-Headはまず、特徴冗長損失(F-RL)と同期空間時間抽出(SSTE)を行い、2種類の特徴間のバランスの取れた相互作用を確保する。
次に、アダプティブ・クロス次元特徴集合(AC-FA)と、アダプティブ・クロス次元特徴集合(F-CL)を用いて、アダプティブ・クロス次元特徴集合(AC-FA)を実行する。
この集約ステップは、グローバルコンテキストとローカル詳細の両方を効果的に結合する。
NTU RGB+D 60, NTU RGB+D 120, NW-UCLAデータセットの実験結果から, あいまいな動作の識別において顕著な改善が認められた。
私たちのコードはhttps://github.com/HaoHuang2003/SFHead.comで公開されます。
関連論文リスト
- Generalized Uncertainty-Based Evidential Fusion with Hybrid Multi-Head Attention for Weak-Supervised Temporal Action Localization [28.005080560540133]
弱教師付き時間的アクションローカライゼーション(WS-TAL)は、完全なアクションインスタンスをローカライズし、それらをビデオレベルのラベルに分類するタスクである。
動作背景のあいまいさは、主にアグリゲーションと動作内変動に起因するバックグラウンドノイズによって引き起こされるものであり、既存のWS-TAL手法にとって重要な課題である。
本稿では,ハイブリッドマルチヘッドアテンション(HMHA)モジュールと一般化された不確実性に基づく明らかな融合(GUEF)モジュールを導入し,この問題に対処する。
論文 参考訳(メタデータ) (2024-12-27T03:04:57Z) - Addressing Spatial-Temporal Data Heterogeneity in Federated Continual Learning via Tail Anchor [24.689188066180463]
フェデレートされた連続学習(FCL)により、各クライアントはタスクストリームからその知識を継続的に更新することができる。
本稿では,訓練可能なタイルアンカーと凍結した出力特性を混合して特徴空間における位置を調節するフェデレートタイルアンカー (FedTA) を提案する。
FedTAは既存のFCL法よりも優れているだけでなく、特徴の相対的な位置を効果的に保ち、空間的・時間的変化の影響を受けないままである。
論文 参考訳(メタデータ) (2024-12-24T11:35:40Z) - CDXFormer: Boosting Remote Sensing Change Detection with Extended Long Short-Term Memory [7.926250735066206]
本稿では,強力なXLSTMベースの機能拡張層であるコアコンポーネントを備えたCDXFormerを提案する。
我々は,意味的精度の高い深層機能用にカスタマイズされたクロステンポラルグローバルパーセプトロンを組み込んだ,スケール特異的な特徴エンハンサー層を導入する。
また,グローバルな変化表現と空間応答を段階的に相互作用するクロススケール・インタラクティブ・フュージョンモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:22:14Z) - Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based
Human Action Recognition [10.403751563214113]
STD-CLは、配列から識別的および意味的に異なる表現を得るためのフレームワークである。
STD-CLは、NTU60、NTU120、NW-UCLAベンチマークでしっかりと改善されている。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial
Expression Recognition [19.5702895176141]
野生の表情認識(DFER)の従来の方法は、主にCNN(Convolutional Neural Networks)に基づいており、ローカル操作はビデオの長距離依存性を無視している。
DFERのトランスフォーマーを用いた性能向上手法を提案するが,高いFLOPと計算コストが生じる。
DFEW と FERV39K の2つの動的表情データセットの実験結果から,DFER の空間的および時間的依存関係を効果的に活用する方法が示唆された。
論文 参考訳(メタデータ) (2023-05-05T07:53:13Z) - Local-Global Temporal Difference Learning for Satellite Video
Super-Resolution [55.69322525367221]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Learning Discriminative Representations for Skeleton Based Action
Recognition [49.45405879193866]
本稿では,骨格の識別表現を得るために,補助機能改善ヘッド(FRヘッド)を提案する。
提案したモデルでは,最先端手法による競合結果が得られ,あいまいなサンプルの識別に役立てることができる。
論文 参考訳(メタデータ) (2023-03-07T08:37:48Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。