論文の概要: Wavelet-Decoupling Contrastive Enhancement Network for Fine-Grained
Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2402.02210v1
- Date: Sat, 3 Feb 2024 16:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:28:02.249995
- Title: Wavelet-Decoupling Contrastive Enhancement Network for Fine-Grained
Skeleton-Based Action Recognition
- Title(参考訳): 微粒骨格に基づく行動認識のためのウェーブレットデカップリングコントラスト強化ネットワーク
- Authors: Haochen Chang, Jing Chen, Yilin Li, Jixiang Chen, Xiaofeng Zhang
- Abstract要約: 本稿ではウェーブレット・アテンション・デカップリング(WAD)モジュールを提案する。
また,コントラスト学習によるトラジェクティブ特徴に対する注意を高めるために,FCEモジュールを提案する。
提案手法は最先端の手法と競合して動作し,微粒な動作を適切に識別することができる。
- 参考スコア(独自算出の注目度): 8.743480762121937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based action recognition has attracted much attention, benefiting
from its succinctness and robustness. However, the minimal inter-class
variation in similar action sequences often leads to confusion. The inherent
spatiotemporal coupling characteristics make it challenging to mine the subtle
differences in joint motion trajectories, which is critical for distinguishing
confusing fine-grained actions. To alleviate this problem, we propose a
Wavelet-Attention Decoupling (WAD) module that utilizes discrete wavelet
transform to effectively disentangle salient and subtle motion features in the
time-frequency domain. Then, the decoupling attention adaptively recalibrates
their temporal responses. To further amplify the discrepancies in these subtle
motion features, we propose a Fine-grained Contrastive Enhancement (FCE) module
to enhance attention towards trajectory features by contrastive learning.
Extensive experiments are conducted on the coarse-grained dataset NTU RGB+D and
the fine-grained dataset FineGYM. Our methods perform competitively compared to
state-of-the-art methods and can discriminate confusing fine-grained actions
well.
- Abstract(参考訳): 骨格に基づく行動認識は、簡潔さと堅牢さから多くの注目を集めている。
しかし、類似したアクションシーケンスにおけるクラス間変動の最小化はしばしば混乱を招く。
固有時空間結合特性は関節運動軌跡の微妙な差をマイニングすることが困難であり, 微視的動作の識別に不可欠である。
この問題を軽減するために,離散ウェーブレット変換を用いたウェーブレット・アテンション・デカップリング(WAD)モジュールを提案する。
そして、デカップリング注意が時間応答を適応的に補正する。
これらの微妙な動き特徴の相違を更に増幅するため、コントラスト学習による軌跡特徴への注意を高めるためのFCEモジュールを提案する。
粗粒度データセットntu rgb+dと細粒度データセットファインジャムについて,広範な実験を行った。
本手法は最先端手法と比較し, 紛らわしい細粒度動作をよく判別できる。
関連論文リスト
- DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - Multi-Dimensional Refinement Graph Convolutional Network with Robust
Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。
CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。
さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文 参考訳(メタデータ) (2023-06-27T09:23:36Z) - Decomposed Cross-modal Distillation for RGB-based Temporal Action
Detection [23.48709176879878]
時間的アクション検出は、ビデオ内の時間間隔とアクションインスタンスのクラスを予測することを目的としている。
既存の2ストリームモデルでは、計算コストの高い光フローに依存するため、推論速度が遅い。
本稿では,移動モーダルの知識を伝達することで,RGBベースの強力な検出器を構築するためのクロスモーダル蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T10:47:26Z) - Self-supervised Action Representation Learning from Partial
Spatio-Temporal Skeleton Sequences [29.376328807860993]
本研究では,異なる骨格関節とビデオフレームの局所的関係を利用した部分的時空間学習(PSTL)フレームワークを提案する。
提案手法は, NTURGB+D 60, NTURGBMM+D 120, PKU-Dのダウンストリームタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-17T17:35:05Z) - Exploring and Exploiting Decision Boundary Dynamics for Adversarial
Robustness [59.948529997062586]
既存の堅牢なトレーニング手法が、トレーニング中の各弱点点のマージンを効果的に増加させるかどうかは不明である。
本稿では,各点に対する決定境界の相対速度を定量化する連続時間フレームワークを提案する。
より小さなマージンの増大を優先する運動に決定境界が関与することを奨励するDyART(Dynamics-Aware Robust Training)を提案する。
論文 参考訳(メタデータ) (2023-02-06T18:54:58Z) - Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。
動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文 参考訳(メタデータ) (2022-09-26T01:36:22Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Guidance and Teaching Network for Video Salient Object Detection [38.22880271210646]
我々はGTNet(Guidance and Teaching Network)と呼ばれるシンプルだが効率的なアーキテクチャを提案する。
GTNetは、暗黙の指導と特徴レベルと意思決定レベルでの明示的な指導によって、効果的な空間的・時間的手がかりを駆除する。
この新しい学習戦略は、複雑な空間的時間的手がかりを分離し、異なるモダリティをまたいだ情報的手がかりをマッピングすることで満足な結果を得る。
論文 参考訳(メタデータ) (2021-05-21T03:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。