論文の概要: FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation
- arxiv url: http://arxiv.org/abs/2502.03829v1
- Date: Thu, 06 Feb 2025 07:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:41.459435
- Title: FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation
- Title(参考訳): FE-UNet:Versatile Image Segmentationのためのセグメンテーション機能を備えた周波数領域拡張U-Net
- Authors: Guohao Huo, Ruiting Dai, Ling Shao, Hao Tang,
- Abstract要約: CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
- 参考スコア(独自算出の注目度): 50.9040167152168
- License:
- Abstract: Image segmentation is a critical task in visual understanding. Convolutional Neural Networks (CNNs) are predisposed to capture high-frequency features in images, while Transformers exhibit a contrasting focus on low-frequency features. In this paper, we experimentally quantify the contrast sensitivity function of CNNs and compare it with that of the human visual system, informed by the seminal experiments of Mannos and Sakrison. Leveraging these insights, we propose the Wavelet-Guided Spectral Pooling Module (WSPM) to enhance and balance image features across the frequency domain. To further emulate the human visual system, we introduce the Frequency Domain Enhanced Receptive Field Block (FE-RFB), which integrates WSPM to extract enriched features from the frequency domain. Building on these innovations, we develop FE-UNet, a model that utilizes SAM2 as its backbone and incorporates Hiera-Large as a pre-trained block, designed to enhance generalization capabilities while ensuring high segmentation accuracy. Experimental results demonstrate that FE-UNet achieves state-of-the-art performance in diverse tasks, including marine animal and polyp segmentation, underscoring its versatility and effectiveness.
- Abstract(参考訳): イメージセグメンテーションは視覚的理解において重要な課題である。
畳み込みニューラルネットワーク(CNN)は、画像内の高周波特徴をキャプチャするために想定されているが、トランスフォーマーは低周波特徴に対照的な焦点を呈している。
本稿では,CNNのコントラスト感度関数を実験的に定量化し,マンノスとサクリソンのセミナル実験から情報を得た人間の視覚システムと比較する。
これらの知見を生かして、周波数領域における画像特徴の強調とバランスをとるために、Wavelet-Guided Spectral Pooling Module (WSPM)を提案する。
人間の視覚システムをさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入し、WSPMを統合して周波数領域からリッチな特徴を抽出する。
これらのイノベーションに基づいて,SAM2をバックボーンとし,Hiera-Largeを事前学習ブロックとして組み込んだFE-UNetを開発した。
実験の結果, FE-UNetは海洋動物, ポリープセグメンテーションなど様々なタスクにおいて, その汎用性と有効性を実証した。
関連論文リスト
- Frequency-Spatial Entanglement Learning for Camouflaged Object Detection [34.426297468968485]
既存の手法では、複雑な設計で空間的特徴の識別能力を最大化することにより、画素類似性の影響を減らそうとしている。
本稿では,周波数領域と空間領域の表現を共同で探索し,周波数空間の絡み合い学習(FSEL)手法を提案する。
我々の実験は、広く使われている3つのデータセットにおける包括的量的および質的比較を通じて、21以上の最先端手法によるFSELの優位性を実証した。
論文 参考訳(メタデータ) (2024-09-03T07:58:47Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - An Advanced Features Extraction Module for Remote Sensing Image Super-Resolution [0.5461938536945723]
チャネル・アンド・スペースアテンション特徴抽出(CSA-FE)と呼ばれる高度な特徴抽出モジュールを提案する。
提案手法は,高頻度情報を含む特定のチャネルや空間的位置に着目し,関連する特徴に焦点を合わせ,無関係な特徴を抑えるのに役立つ。
本モデルは,既存モデルと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-07T18:15:51Z) - Wavelet-based Fourier Information Interaction with Frequency Diffusion
Adjustment for Underwater Image Restoration [6.185197290440237]
本稿では,周波数領域情報と拡散モデルの特徴をフル活用するWF-Diffを提案する。
WF-Diffは、ウェーブレットベースのフーリエ情報インタラクションネットワーク(WFI2-net)と周波数残差拡散調整モジュール(FRDAM)の2つの分離可能なネットワークで構成されている。
提案アルゴリズムは,実世界の水中画像データセット上でのSOTA性能を示し,視覚的品質の競争性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T14:58:32Z) - Dynamic Spectrum Mixer for Visual Recognition [17.180863898764194]
動的スペクトルミキサー (DSM) という,コンテンツ適応型だが計算効率のよい構造を提案する。
DSMはコサイン変換を用いて周波数領域におけるトークンの相互作用を表す。
ログ線形複雑性で長期空間依存を学習することができる。
論文 参考訳(メタデータ) (2023-09-13T04:51:15Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。