Fugu-MT 論文翻訳(概要): Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed Transformer

論文の概要: Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed Transformer

arxiv url: http://arxiv.org/abs/2407.12322v3
Date: Mon, 29 Jul 2024 18:03:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 12:29:44.506048
Title: Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed Transformer
Title（参考訳）: 周波数誘導問題:周波数対応混合変圧器による骨格行動認識
Authors: Wenhan Wu, Ce Zheng, Zihao Yang, Chen Chen, Srijan Das, Aidong Lu,
Abstract要約: 骨格の周波数表現を除去するための周波数認識型アテンションモジュールを提案する。また、周波数特徴を持つ空間特徴を組み込む混合変圧器アーキテクチャも開発している。 FreqMiXFormerは3つの一般的な骨格認識データセットでSOTAを上回っている。
参考スコア（独自算出の注目度）: 18.459822172890473
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, transformers have demonstrated great potential for modeling long-term dependencies from skeleton sequences and thereby gained ever-increasing attention in skeleton action recognition. However, the existing transformer-based approaches heavily rely on the naive attention mechanism for capturing the spatiotemporal features, which falls short in learning discriminative representations that exhibit similar motion patterns. To address this challenge, we introduce the Frequency-aware Mixed Transformer (FreqMixFormer), specifically designed for recognizing similar skeletal actions with subtle discriminative motions. First, we introduce a frequency-aware attention module to unweave skeleton frequency representations by embedding joint features into frequency attention maps, aiming to distinguish the discriminative movements based on their frequency coefficients. Subsequently, we develop a mixed transformer architecture to incorporate spatial features with frequency features to model the comprehensive frequency-spatial patterns. Additionally, a temporal transformer is proposed to extract the global correlations across frames. Extensive experiments show that FreqMiXFormer outperforms SOTA on 3 popular skeleton action recognition datasets, including NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets.
Abstract（参考訳）: 近年, トランスフォーマーは骨格配列からの長期依存をモデル化する大きな可能性を示し, 骨格行動認識において常に注目を集めている。しかし、既存のトランスフォーマーベースのアプローチは、同様の動きパターンを示す識別的表現の学習において不足する時空間的特徴を捉えるための単純な注意機構に大きく依存している。この課題に対処するために、周波数対応混合変換器(FreqMixFormer)を導入する。まず,その周波数係数に基づいて識別動作を識別することを目的として,関節特徴を周波数アテンションマップに埋め込むことにより骨格の周波数表現を解き放つ周波数アテンションモジュールを提案する。その後、周波数特徴を持つ空間特徴を包含し、包括的周波数空間パターンをモデル化する混合変圧器アーキテクチャを開発した。さらに,フレーム間の大域的相関を抽出するために時間変換器を提案する。大規模な実験により、FreqMiXFormerは、NTU RGB+D、NTU RGB+D 120、NW-UCLAデータセットを含む3つの人気のあるスケルトン行動認識データセットでSOTAより優れていることが示されている。

関連論文リスト

FusAD: Time-Frequency Fusion with Adaptive Denoising for General Time Series Analysis [92.23551599659186]
時系列分析は、金融、医療、産業、気象学などの分野において重要な役割を果たす。 FusADは多様な時系列タスク用に設計された統合分析フレームワークである。
論文参考訳（メタデータ） (2025-12-16T04:34:27Z)
FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。 FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文参考訳（メタデータ） (2025-11-26T08:36:33Z)
KFS: KAN based adaptive Frequency Selection learning architecture for long term time series forecasting [8.839783121363835]
そこで我々は,これらの課題に対処するために,KAを用いた適応周波数選択学習アーキテクチャ(KFS)を提案する。このフレームワークは、クロススケールノイズ干渉と複雑なパターンモデリングから生じる予測問題に対処する。複数の実世界の時系列データセットにまたがる実験により、KTは単純で効果的なアーキテクチャとして最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-08-01T13:50:57Z)
FreRA: A Frequency-Refined Augmentation for Contrastive Learning on Time Series Classification [56.925103708982164]
周波数領域からの新たな視点を示し、ダウンストリーム分類の利点として、グローバル、独立、コンパクトの3つを識別する。本稿では,分類タスクにおける時系列のコントラスト学習に適した,軽量で効果的な周波数補充拡張(FreRA)を提案する。 FreRAは、時系列分類、異常検出、転送学習タスクにおいて、常に10つの主要なベースラインを上回ります。
論文参考訳（メタデータ） (2025-05-29T07:18:28Z)
Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-05-25T12:23:10Z)
MFRS: A Multi-Frequency Reference Series Approach to Scalable and Accurate Time-Series Forecasting [51.94256702463408]
時系列予測は、周波数の異なる周期特性から導かれる。マルチ周波数参照系列相関解析に基づく新しい時系列予測手法を提案する。主要なオープンデータセットと合成データセットの実験は、最先端のパフォーマンスを示している。
論文参考訳（メタデータ） (2025-03-11T11:40:14Z)
FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文参考訳（メタデータ） (2025-02-06T07:24:34Z)
FreEformer: Frequency Enhanced Transformer for Multivariate Time Series Forecasting [17.738942892605234]
本稿は,textbfFrequency textbfEnhanced Transtextbfformerを利用した,シンプルで効果的なモデルである textbfFreEformerを提案する。実験により、FreEformerは18の現実世界のベンチマークで最先端のモデルより一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-01-23T08:53:45Z)
CATCH: Channel-Aware multivariate Time Series Anomaly Detection via Frequency Patching [24.927390742543707]
周波数パッチに基づくフレームワークであるCATCHを紹介する。本稿では,パッチワイドマスクジェネレータとマスクアテンション機構を備えたChannel Fusion Module (CFM)を提案する。 9つの実世界のデータセットと12の合成データセットの実験は、CATCHが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2024-10-16T05:58:55Z)
Frequency-Aware Deepfake Detection: Improving Generalizability through Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文参考訳（メタデータ） (2024-03-12T01:28:00Z)
Frequency-Adaptive Pan-Sharpening with Mixture of Experts [22.28680499480492]
パンシャーピングのための新しい周波数適応型エキスパート混合学習フレームワーク(FAME)を提案する。本手法は他の最先端技術に対して最善を尽くし,現実のシーンに対して強力な一般化能力を有する。
論文参考訳（メタデータ） (2024-01-04T08:58:25Z)
Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文参考訳（メタデータ） (2023-11-20T17:35:44Z)
Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文参考訳（メタデータ） (2023-08-17T11:30:46Z)
MultiWave: Multiresolution Deep Architectures through Wavelet Decomposition for Multivariate Time Series Prediction [6.980076213134384]
MultiWaveは、信号の固有周波数で動作するコンポーネントを組み込むことで、ディープラーニング時系列モデルを強化する新しいフレームワークである。我々は、MultiWaveが重要な特徴とその周波数成分を一貫して識別し、研究対象のアプリケーションに対する貴重な洞察を提供することを示す。
論文参考訳（メタデータ） (2023-06-16T20:07:15Z)
STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-31T16:19:27Z)
Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。 MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。 MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文参考訳（メタデータ） (2022-06-15T17:58:30Z)
Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-03-27T14:25:52Z)
Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文参考訳（メタデータ） (2021-06-10T17:59:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。