論文の概要: Frequency-Adaptive Dilated Convolution for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2403.05369v4
- Date: Thu, 28 Mar 2024 13:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 20:43:01.274547
- Title: Frequency-Adaptive Dilated Convolution for Semantic Segmentation
- Title(参考訳): セマンティックセグメンテーションのための周波数適応型拡張畳み込み
- Authors: Linwei Chen, Lin Gu, Ying Fu,
- Abstract要約: 本稿では、スペクトル分析の観点から、拡張畳み込みの個々の位相を改善するための3つの戦略を提案する。
周波数適応型拡張畳み込み(FADC)を導入し、局所周波数成分に基づいて空間的に拡散率を調整する。
2つのプラグインモジュールを設計し、有効帯域幅と受容フィールドサイズを直接的に拡張する。
- 参考スコア(独自算出の注目度): 14.066404173580864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dilated convolution, which expands the receptive field by inserting gaps between its consecutive elements, is widely employed in computer vision. In this study, we propose three strategies to improve individual phases of dilated convolution from the view of spectrum analysis. Departing from the conventional practice of fixing a global dilation rate as a hyperparameter, we introduce Frequency-Adaptive Dilated Convolution (FADC), which dynamically adjusts dilation rates spatially based on local frequency components. Subsequently, we design two plug-in modules to directly enhance effective bandwidth and receptive field size. The Adaptive Kernel (AdaKern) module decomposes convolution weights into low-frequency and high-frequency components, dynamically adjusting the ratio between these components on a per-channel basis. By increasing the high-frequency part of convolution weights, AdaKern captures more high-frequency components, thereby improving effective bandwidth. The Frequency Selection (FreqSelect) module optimally balances high- and low-frequency components in feature representations through spatially variant reweighting. It suppresses high frequencies in the background to encourage FADC to learn a larger dilation, thereby increasing the receptive field for an expanded scope. Extensive experiments on segmentation and object detection consistently validate the efficacy of our approach. The code is publicly available at \url{https://github.com/Linwei-Chen/FADC}.
- Abstract(参考訳): 連続する要素間のギャップを挿入することによって受容場を広げる拡張畳み込みは、コンピュータビジョンにおいて広く用いられている。
本研究では,スペクトル分析の観点から,拡張畳み込みの個々の位相を改善するための3つの戦略を提案する。
グローバルディレーションレートをハイパーパラメータとして固定する従来の慣行とは別に,局所周波数成分に基づいて動的にディレーションレートを調整する周波数適応型ディレイト・コンボリューション(FADC)を導入する。
その後、有効帯域幅と受容フィールドサイズを直接拡張する2つのプラグインモジュールを設計する。
Adaptive Kernel (AdaKern) モジュールは、畳み込み重みを低周波成分と高周波成分に分解し、チャネル単位でこれらの成分間の比を動的に調整する。
畳み込み重みの高周波部分を増やすことで、AdaKernはより多くの高周波成分を捕捉し、有効帯域幅を改善する。
周波数選択(FreqSelect)モジュールは、空間的に不変な再重み付けによって特徴表現における高周波数成分と低周波数成分を最適にバランスさせる。
背景の高周波数を抑え、FADCにより大きな拡張学習を奨励し、拡張されたスコープに対する受容野を増大させる。
セグメンテーションと物体検出に関する広範囲な実験は、我々のアプローチの有効性を一貫して検証している。
コードは \url{https://github.com/Linwei-Chen/FADC} で公開されている。
関連論文リスト
- Frequency-Adaptive Pan-Sharpening with Mixture of Experts [22.28680499480492]
パンシャーピングのための新しい周波数適応型エキスパート混合学習フレームワーク(FAME)を提案する。
本手法は他の最先端技術に対して最善を尽くし,現実のシーンに対して強力な一般化能力を有する。
論文 参考訳(メタデータ) (2024-01-04T08:58:25Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - TWR-MCAE: A Data Augmentation Method for Through-the-Wall Radar Human
Motion Recognition [19.7631142728486]
本稿では,マルチリンク自動符号化ニューラルネットワーク(TWR-MCAE)データ拡張手法を提案する。
提案アルゴリズムは、より優れたピーク信号-雑音比(PSNR)を得る。
実験により,提案アルゴリズムはより優れたピーク信号対雑音比(PSNR)が得られることが示された。
論文 参考訳(メタデータ) (2023-01-06T12:56:53Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Multi-Frequency Information Enhanced Channel Attention Module for
Speaker Representation Learning [41.44950556040058]
本稿では,多周波情報を活用し,新しい2つの注目モジュールを設計することを提案する。
提案したアテンションモジュールは、DCTに基づいて、複数の周波数成分からより多くの話者情報を効果的に取得することができる。
実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,より識別性の高い話者表現を効率的に生成できることがわかった。
論文 参考訳(メタデータ) (2022-07-10T21:19:36Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z) - Dual-branch Attention-In-Attention Transformer for single-channel speech
enhancement [6.894606865794746]
スペクトルの粗い領域ときめ細かい領域を並列に扱うために,DB-AIATと呼ばれる2分岐アテンション変換器を提案する。
本稿では,従来のRNNと時間的畳み込みネットワークを置き換え,時間的シーケンスモデリングのための新しいアテンション・イン・アテンション・トランスフォーマー・ベース・モジュールを提案する。
論文 参考訳(メタデータ) (2021-10-13T03:03:49Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。