Fugu-MT 論文翻訳(概要): Wavelet-Decoupling Contrastive Enhancement Network for Fine-Grained Skeleton-Based Action Recognition

論文の概要: Wavelet-Decoupling Contrastive Enhancement Network for Fine-Grained Skeleton-Based Action Recognition

arxiv url: http://arxiv.org/abs/2402.02210v1
Date: Sat, 3 Feb 2024 16:51:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 21:28:02.249995
Title: Wavelet-Decoupling Contrastive Enhancement Network for Fine-Grained Skeleton-Based Action Recognition
Title（参考訳）: 微粒骨格に基づく行動認識のためのウェーブレットデカップリングコントラスト強化ネットワーク
Authors: Haochen Chang, Jing Chen, Yilin Li, Jixiang Chen, Xiaofeng Zhang
Abstract要約: 本稿ではウェーブレット・アテンション・デカップリング(WAD)モジュールを提案する。また,コントラスト学習によるトラジェクティブ特徴に対する注意を高めるために,FCEモジュールを提案する。提案手法は最先端の手法と競合して動作し,微粒な動作を適切に識別することができる。
参考スコア（独自算出の注目度）: 8.743480762121937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Skeleton-based action recognition has attracted much attention, benefiting from its succinctness and robustness. However, the minimal inter-class variation in similar action sequences often leads to confusion. The inherent spatiotemporal coupling characteristics make it challenging to mine the subtle differences in joint motion trajectories, which is critical for distinguishing confusing fine-grained actions. To alleviate this problem, we propose a Wavelet-Attention Decoupling (WAD) module that utilizes discrete wavelet transform to effectively disentangle salient and subtle motion features in the time-frequency domain. Then, the decoupling attention adaptively recalibrates their temporal responses. To further amplify the discrepancies in these subtle motion features, we propose a Fine-grained Contrastive Enhancement (FCE) module to enhance attention towards trajectory features by contrastive learning. Extensive experiments are conducted on the coarse-grained dataset NTU RGB+D and the fine-grained dataset FineGYM. Our methods perform competitively compared to state-of-the-art methods and can discriminate confusing fine-grained actions well.
Abstract（参考訳）: 骨格に基づく行動認識は、簡潔さと堅牢さから多くの注目を集めている。しかし、類似したアクションシーケンスにおけるクラス間変動の最小化はしばしば混乱を招く。固有時空間結合特性は関節運動軌跡の微妙な差をマイニングすることが困難であり, 微視的動作の識別に不可欠である。この問題を軽減するために,離散ウェーブレット変換を用いたウェーブレット・アテンション・デカップリング(WAD)モジュールを提案する。そして、デカップリング注意が時間応答を適応的に補正する。これらの微妙な動き特徴の相違を更に増幅するため、コントラスト学習による軌跡特徴への注意を高めるためのFCEモジュールを提案する。粗粒度データセットntu rgb+dと細粒度データセットファインジャムについて,広範な実験を行った。本手法は最先端手法と比較し, 紛らわしい細粒度動作をよく判別できる。

関連論文リスト

Frequency-Semantic Enhanced Variational Autoencoder for Zero-Shot Skeleton-based Action Recognition [11.11236920942621]
ゼロショットスケルトンに基づくアクション認識は、トレーニング中に遭遇するカテゴリを超えてアクションを特定することを目的としている。従来のアプローチは主に視覚的表現と意味的表現の整合に重点を置いてきた。本稿では,周波数分解を用いたスケルトン意味表現学習のための周波数意味拡張変分オートエンコーダ (FS-VAE) を提案する。
論文参考訳（メタデータ） (2025-06-27T12:44:08Z)
FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-01T10:57:37Z)
FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition [57.17966905865054]
実生活における行動認識の応用は、しばしば微妙な動きのきめ細かい理解を必要とする。既存の半教師ありアクション認識は主に粗いアクション認識に焦点を当てている。そこで我々は,微粒なアクションペアの識別を効果的に行うための,アライナビリティ検証に基づくメトリック学習手法を提案する。
論文参考訳（メタデータ） (2024-09-02T20:08:06Z)
Deformable Feature Alignment and Refinement for Moving Infrared Dim-small Target Detection [17.765101100010224]
本稿では,変形可能なコンボリューションに基づく変形可能な特徴アライメント・リファインメント(DFAR)手法を提案する。提案手法はDAUBとIRDSTを含む2つのベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-10T00:42:25Z)
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-02T06:53:01Z)
DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-09-09T04:40:01Z)
Multi-Dimensional Refinement Graph Convolutional Network with Robust Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。 CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文参考訳（メタデータ） (2023-06-27T09:23:36Z)
Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。 AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文参考訳（メタデータ） (2023-05-04T19:11:33Z)
Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection [23.48709176879878]
時間的アクション検出は、ビデオ内の時間間隔とアクションインスタンスのクラスを予測することを目的としている。既存の2ストリームモデルでは、計算コストの高い光フローに依存するため、推論速度が遅い。本稿では,移動モーダルの知識を伝達することで,RGBベースの強力な検出器を構築するためのクロスモーダル蒸留フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-30T10:47:26Z)
Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文参考訳（メタデータ） (2022-09-26T01:36:22Z)
Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-31T05:13:50Z)
ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文参考訳（メタデータ） (2022-03-22T13:40:26Z)
Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文参考訳（メタデータ） (2021-09-14T02:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。