論文の概要: Frequency Dynamic Convolution for Dense Image Prediction
- arxiv url: http://arxiv.org/abs/2503.18783v1
- Date: Mon, 24 Mar 2025 15:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:33.952755
- Title: Frequency Dynamic Convolution for Dense Image Prediction
- Title(参考訳): 密度画像予測のための周波数動的畳み込み
- Authors: Linwei Chen, Lin Gu, Liang Li, Chenggang Yan, Ying Fu,
- Abstract要約: 本稿では、FDConv( Frequency Dynamic Convolution)を導入し、Fourierドメインの固定パラメータ予算を学習することで制限を緩和する。
FDConvは、この予算を不整合フーリエ指数を持つ周波数ベースのグループに分割し、パラメータコストを増大させることなく周波数幅の重みを構築することができる。
我々は、ResNet-50に適用した場合、FDConvは、+3.6Mパラメータを適度に増加させ、優れた性能を達成することを実証した。
- 参考スコア(独自算出の注目度): 34.915070244005854
- License:
- Abstract: While Dynamic Convolution (DY-Conv) has shown promising performance by enabling adaptive weight selection through multiple parallel weights combined with an attention mechanism, the frequency response of these weights tends to exhibit high similarity, resulting in high parameter costs but limited adaptability. In this work, we introduce Frequency Dynamic Convolution (FDConv), a novel approach that mitigates these limitations by learning a fixed parameter budget in the Fourier domain. FDConv divides this budget into frequency-based groups with disjoint Fourier indices, enabling the construction of frequency-diverse weights without increasing the parameter cost. To further enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency Band Modulation (FBM). KSM dynamically adjusts the frequency response of each filter at the spatial level, while FBM decomposes weights into distinct frequency bands in the frequency domain and modulates them dynamically based on local content. Extensive experiments on object detection, segmentation, and classification validate the effectiveness of FDConv. We demonstrate that when applied to ResNet-50, FDConv achieves superior performance with a modest increase of +3.6M parameters, outperforming previous methods that require substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M). Moreover, FDConv seamlessly integrates into a variety of architectures, including ConvNeXt, Swin-Transformer, offering a flexible and efficient solution for modern vision tasks. The code is made publicly available at https://github.com/Linwei-Chen/FDConv.
- Abstract(参考訳): 動的畳み込み(DY-Conv)は、複数の並列重みによる適応的な重み選択と注意機構を組み合わせることで、有望な性能を示す一方で、これらの重みの周波数応答は高い類似性を示す傾向にあり、パラメータコストが高いが、適応性に制限がある。
本稿では、フーリエ領域の固定パラメータ予算を学習することにより、これらの制限を緩和する新しいアプローチである周波数動的畳み込み(FDConv)を紹介する。
FDConvは、この予算を不整合フーリエ指数を持つ周波数ベースのグループに分割し、パラメータコストを増大させることなく周波数幅の重みを構築することができる。
さらに適応性を高めるために,カーネル空間変調(KSM)と周波数帯域変調(FBM)を提案する。
KSMは各フィルタの周波数応答を空間レベルで動的に調整し、FBMは重みを周波数領域の異なる周波数帯域に分解し、局所的内容に基づいて動的に変調する。
対象検出,セグメンテーション,分類に関する広範囲な実験により,FDConvの有効性が検証された。
我々は、ResNet-50に適用した場合、FDConvは、パラメータ予算(例えば、CondConv +90M、KW +76.5M)を大幅に増加させる従来の手法よりも、わずかに増加する+3.6Mパラメータで優れた性能を達成することを示した。
さらにFDConvは,ConvNeXtやSwin-Transformerなど,さまざまなアーキテクチャにシームレスに統合されている。
コードはhttps://github.com/Linwei-Chen/FDConv.comで公開されている。
関連論文リスト
- Multi-frequency wavefield solutions for variable velocity models using meta-learning enhanced low-rank physics-informed neural network [3.069335774032178]
物理インフォームドニューラルネットワーク(PINN)は、複雑な速度モデルにおける多周波波場をモデル化する上で大きな課題に直面している。
本稿では,低ランクパラメータ化とメタラーニング,周波数埋め込みを組み合わせた新しいフレームワークMeta-LRPINNを提案する。
数値実験により,Meta-LRPINNはベースライン法に比べて高速に収束し,精度が高いことがわかった。
論文 参考訳(メタデータ) (2025-02-02T20:12:39Z) - FreqMixFormerV2: Lightweight Frequency-aware Mixed Transformer for Human Skeleton Action Recognition [9.963966059349731]
FreqMixForemrV2は、微妙で差別的なアクションを特定するために、周波数対応のMixed Transformer(FreqMixFormer)上に構築されている。
提案手法は, 精度と効率のバランスが良く, パラメータの60%しか持たない最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-29T23:52:40Z) - State-Free Inference of State-Space Models: The Transfer Function Approach [132.83348321603205]
状態のない推論では、状態サイズが大きくなると大きなメモリや計算コストは発生しない。
提案した周波数領域転送関数のパラメトリゼーション特性を用いてこれを実現する。
長い畳み込みハイエナベースライン上での言語モデリングにおける難易度の改善を報告した。
論文 参考訳(メタデータ) (2024-05-10T00:06:02Z) - Frequency-Adaptive Dilated Convolution for Semantic Segmentation [14.066404173580864]
本稿では、スペクトル分析の観点から、拡張畳み込みの個々の位相を改善するための3つの戦略を提案する。
周波数適応型拡張畳み込み(FADC)を導入し、局所周波数成分に基づいて空間的に拡散率を調整する。
2つのプラグインモジュールを設計し、有効帯域幅と受容フィールドサイズを直接的に拡張する。
論文 参考訳(メタデータ) (2024-03-08T15:00:44Z) - Frame Flexible Network [52.623337134518835]
既存のビデオ認識アルゴリズムは、常に異なるフレーム番号の入力に対して異なるトレーニングパイプラインを実行する。
トレーニングに使われていない他のフレームを使用してモデルを評価した場合、パフォーマンスが大幅に低下するのを観察する。
本稿では,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T20:51:35Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Mixed Variable Bayesian Optimization with Frequency Modulated Kernels [96.78099706164747]
異なる種類の変数間の依存性を柔軟にモデリングする周波数変調(FM)カーネルを提案する。
BO-FMは正規化進化(RE)およびBOHBを含む競争相手を上回ります。
論文 参考訳(メタデータ) (2021-02-25T11:28:46Z) - Dynamic Region-Aware Convolution [85.20099799084026]
本稿では,複数のフィルタを対応する空間領域に自動的に割り当てる動的領域認識畳み込み(DRConv)を提案する。
ImageNet分類において、DRConvベースのShuffleNetV2-0.5xは6.3%の相対的な改善と46M乗算加算レベルで67.1%の最先端性能を達成する。
論文 参考訳(メタデータ) (2020-03-27T05:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。