論文の概要: Frequency-Dynamic Attention Modulation for Dense Prediction
- arxiv url: http://arxiv.org/abs/2507.12006v3
- Date: Thu, 24 Jul 2025 09:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 13:02:36.819198
- Title: Frequency-Dynamic Attention Modulation for Dense Prediction
- Title(参考訳): ディエンス予測のための周波数ダイナミックアテンション変調
- Authors: Linwei Chen, Lin Gu, Ying Fu,
- Abstract要約: 我々は、周波数ダイナミックアテンション変調(FDAM)と呼ばれる回路理論にインスパイアされた戦略を提案する。
FDAMは視覚変換器(ViT)の総周波数応答を直接調節する
- 参考スコア(独自算出の注目度): 14.066404173580864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have significantly advanced computer vision, demonstrating strong performance across various tasks. However, the attention mechanism in ViTs makes each layer function as a low-pass filter, and the stacked-layer architecture in existing transformers suffers from frequency vanishing. This leads to the loss of critical details and textures. We propose a novel, circuit-theory-inspired strategy called Frequency-Dynamic Attention Modulation (FDAM), which can be easily plugged into ViTs. FDAM directly modulates the overall frequency response of ViTs and consists of two techniques: Attention Inversion (AttInv) and Frequency Dynamic Scaling (FreqScale). Since circuit theory uses low-pass filters as fundamental elements, we introduce AttInv, a method that generates complementary high-pass filtering by inverting the low-pass filter in the attention matrix, and dynamically combining the two. We further design FreqScale to weight different frequency components for fine-grained adjustments to the target response function. Through feature similarity analysis and effective rank evaluation, we demonstrate that our approach avoids representation collapse, leading to consistent performance improvements across various models, including SegFormer, DeiT, and MaskDINO. These improvements are evident in tasks such as semantic segmentation, object detection, and instance segmentation. Additionally, we apply our method to remote sensing detection, achieving state-of-the-art results in single-scale settings. The code is available at https://github.com/Linwei-Chen/FDAM.
- Abstract(参考訳): ヴィジュアルトランスフォーマー(ViT)はコンピュータビジョンが大幅に進歩し、様々なタスクで高い性能を示す。
しかし、ViTの注意機構は各層を低域通過フィルタとして機能させ、既存の変圧器の積層層構造は周波数消滅に悩まされる。
これにより、重要な詳細やテクスチャが失われる。
本稿では、VTに簡単に接続可能な周波数動的注意変調(FDAM)と呼ばれる、回路理論にインスパイアされた新しい戦略を提案する。
FDAMは、ViTの全体的な周波数応答を直接変調し、注意インバージョン(AttInv)と周波数動的スケーリング(FreqScale)の2つのテクニックで構成される。
回路理論は低域フィルタを基本要素として用いているため,注目行列に低域フィルタを反転させ,その2つを動的に組み合わせることで,相補的な高域フィルタを生成する AttInv を導入する。
さらにFreqScaleを設計し、異なる周波数成分の重み付けを行い、ターゲット応答関数の微調整を行う。
特徴類似性解析と効果的なランク評価により,提案手法は表現の崩壊を回避し,SegFormer,DeiT,MaskDINOなど,様々なモデルで一貫した性能向上をもたらすことを示した。
これらの改善はセマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションといったタスクで明らかである。
さらに,本手法をリモートセンシングに応用し,単一スケール環境での最先端化を実現する。
コードはhttps://github.com/Linwei-Chen/FDAM.comで入手できる。
関連論文リスト
- Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - Speed-up of Vision Transformer Models by Attention-aware Token Filtering [6.061938153713551]
本稿では, 注意認識トークンフィルタリング(ATF)と呼ばれる, ViT モデルのための新しい高速化手法を提案する。
ATFは、新しいトークンフィルタリングモジュールとフィルタリング戦略の2つの主要なアイデアで構成されている。
ATFは、検索リコール率を維持しながら、ViTモデルであるSigLIPの2.8倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2025-06-02T10:34:55Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - CVVNet: A Cross-Vertical-View Network for Gait Recognition [3.9124245851778032]
本稿では,頑健な縦方向歩行認識のための周波数アグリゲーションアーキテクチャCVVNetを提案する。
CVVNetは最先端のパフォーマンスを達成し、DroneGaitは8.6%、Gait3Dは2%だった。
論文 参考訳(メタデータ) (2025-05-03T14:53:20Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。
本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文 参考訳(メタデータ) (2022-08-18T13:46:12Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。