論文の概要: Wavelet-Decoupling Contrastive Enhancement Network for Fine-Grained
Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2402.02210v1
- Date: Sat, 3 Feb 2024 16:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:28:02.249995
- Title: Wavelet-Decoupling Contrastive Enhancement Network for Fine-Grained
Skeleton-Based Action Recognition
- Title(参考訳): 微粒骨格に基づく行動認識のためのウェーブレットデカップリングコントラスト強化ネットワーク
- Authors: Haochen Chang, Jing Chen, Yilin Li, Jixiang Chen, Xiaofeng Zhang
- Abstract要約: 本稿ではウェーブレット・アテンション・デカップリング(WAD)モジュールを提案する。
また,コントラスト学習によるトラジェクティブ特徴に対する注意を高めるために,FCEモジュールを提案する。
提案手法は最先端の手法と競合して動作し,微粒な動作を適切に識別することができる。
- 参考スコア(独自算出の注目度): 8.743480762121937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based action recognition has attracted much attention, benefiting
from its succinctness and robustness. However, the minimal inter-class
variation in similar action sequences often leads to confusion. The inherent
spatiotemporal coupling characteristics make it challenging to mine the subtle
differences in joint motion trajectories, which is critical for distinguishing
confusing fine-grained actions. To alleviate this problem, we propose a
Wavelet-Attention Decoupling (WAD) module that utilizes discrete wavelet
transform to effectively disentangle salient and subtle motion features in the
time-frequency domain. Then, the decoupling attention adaptively recalibrates
their temporal responses. To further amplify the discrepancies in these subtle
motion features, we propose a Fine-grained Contrastive Enhancement (FCE) module
to enhance attention towards trajectory features by contrastive learning.
Extensive experiments are conducted on the coarse-grained dataset NTU RGB+D and
the fine-grained dataset FineGYM. Our methods perform competitively compared to
state-of-the-art methods and can discriminate confusing fine-grained actions
well.
- Abstract(参考訳): 骨格に基づく行動認識は、簡潔さと堅牢さから多くの注目を集めている。
しかし、類似したアクションシーケンスにおけるクラス間変動の最小化はしばしば混乱を招く。
固有時空間結合特性は関節運動軌跡の微妙な差をマイニングすることが困難であり, 微視的動作の識別に不可欠である。
この問題を軽減するために,離散ウェーブレット変換を用いたウェーブレット・アテンション・デカップリング(WAD)モジュールを提案する。
そして、デカップリング注意が時間応答を適応的に補正する。
これらの微妙な動き特徴の相違を更に増幅するため、コントラスト学習による軌跡特徴への注意を高めるためのFCEモジュールを提案する。
粗粒度データセットntu rgb+dと細粒度データセットファインジャムについて,広範な実験を行った。
本手法は最先端手法と比較し, 紛らわしい細粒度動作をよく判別できる。
関連論文リスト
- FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition [57.17966905865054]
実生活における行動認識の応用は、しばしば微妙な動きのきめ細かい理解を必要とする。
既存の半教師ありアクション認識は主に粗いアクション認識に焦点を当てている。
そこで我々は,微粒なアクションペアの識別を効果的に行うための,アライナビリティ検証に基づくメトリック学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T20:08:06Z) - Deformable Feature Alignment and Refinement for Moving Infrared Dim-small Target Detection [17.765101100010224]
本稿では,変形可能なコンボリューションに基づく変形可能な特徴アライメント・リファインメント(DFAR)手法を提案する。
提案手法はDAUBとIRDSTを含む2つのベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T00:42:25Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - Multi-Dimensional Refinement Graph Convolutional Network with Robust
Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。
CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。
さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文 参考訳(メタデータ) (2023-06-27T09:23:36Z) - Decomposed Cross-modal Distillation for RGB-based Temporal Action
Detection [23.48709176879878]
時間的アクション検出は、ビデオ内の時間間隔とアクションインスタンスのクラスを予測することを目的としている。
既存の2ストリームモデルでは、計算コストの高い光フローに依存するため、推論速度が遅い。
本稿では,移動モーダルの知識を伝達することで,RGBベースの強力な検出器を構築するためのクロスモーダル蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T10:47:26Z) - Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。
動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文 参考訳(メタデータ) (2022-09-26T01:36:22Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。