論文の概要: FE-UNet: Frequency Domain Enhanced U-Net for Low-Frequency Information-Rich Image Segmentation
- arxiv url: http://arxiv.org/abs/2502.03829v2
- Date: Wed, 23 Jul 2025 07:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 14:06:48.997783
- Title: FE-UNet: Frequency Domain Enhanced U-Net for Low-Frequency Information-Rich Image Segmentation
- Title(参考訳): FE-UNet:低周波情報リッチ画像分割のための周波数領域拡張U-Net
- Authors: Guohao Huo, Ruiting Dai, Ling Shao, Jinliang Liu, Hao Tang,
- Abstract要約: CNNと人間の視覚系における周波数帯域感度の差について検討する。
本稿では、生体視覚機構にインスパイアされたウェーブレット適応スペクトル融合(WASF)法を提案する。
我々は SAM2 のバックボーンネットワークを利用する FE-UNet モデルを開発し, セグメンテーション精度を確保するために細調整した Hiera-Large モジュールを組み込んだ。
- 参考スコア(独自算出の注目度): 48.034848981295525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In deep-sea exploration and surgical robotics scenarios, environmental lighting and device resolution limitations often cause high-frequency feature attenuation. Addressing the differences in frequency band sensitivity between CNNs and the human visual system (mid-frequency sensitivity with low-frequency sensitivity surpassing high-frequency), we experimentally quantified the CNN contrast sensitivity function and proposed a wavelet adaptive spectrum fusion (WASF) method inspired by biological vision mechanisms to balance cross-frequency image features. Furthermore, we designed a perception frequency block (PFB) that integrates WASF to enhance frequency-domain feature extraction. Based on this, we developed the FE-UNet model, which employs a SAM2 backbone network and incorporates fine-tuned Hiera-Large modules to ensure segmentation accuracy while improving generalization capability. Experiments demonstrate that FE-UNet achieves state-of-the-art performance in cross-domain tasks such as marine organism segmentation and polyp segmentation, showcasing robust adaptability and significant application potential.
- Abstract(参考訳): 深海探査と外科ロボティクスのシナリオでは、環境照明とデバイス解像度の制限がしばしば高周波特性の減衰を引き起こす。
CNNとヒト視覚系の周波数帯域感度の違い(低周波感度が高周波感度を超える中周波感度)に対処し、CNNコントラスト感度関数を実験的に定量化し、生体視覚機構にインスパイアされたウェーブレット適応スペクトル融合(WASF)法を提案した。
さらに、周波数領域の特徴抽出を強化するためにWASFを統合した知覚周波数ブロック(PFB)を設計した。
そこで本研究では,SAM2バックボーンネットワークを用いたFE-UNetモデルを開発した。
実験により、FE-UNetは海洋生物のセグメンテーションやポリプセグメンテーションといったクロスドメインタスクにおいて最先端の性能を達成し、堅牢な適応性とアプリケーションの可能性を示す。
関連論文リスト
- Self-Bootstrapping for Versatile Test-Time Adaptation [29.616417768209114]
我々は様々なタスクに対して多目的なテスト時間適応(TTA)の目標を策定する。
テスト画像(ターゲット)と劣化したビューとの予測一貫性を最適化する自己ブートストラップ方式によりこれを実現できる。
実験により, 独立に, あるいはプラグアンドプレイモジュールとして, 分類, セグメンテーション, 3次元単分子検出タスクにおいて, 優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2025-04-10T05:45:07Z) - Adaptive Frequency Enhancement Network for Remote Sensing Image Semantic Segmentation [33.49405456617909]
本稿では、適応周波数と空間特徴の相互作用モジュール(AFSIM)と選択特徴の融合モジュール(SFM)の2つの重要なコンポーネントを統合した適応周波数拡張ネットワーク(AFENet)を提案する。
AFSIMは入力画像の内容に応じて、高周波数特徴と低周波特徴を動的に分離・変調する。
SFMは、ネットワークの表現能力を高めるために、グローバルコンテキストとローカル詳細機能を選択的に融合する。
論文 参考訳(メタデータ) (2025-04-03T14:42:49Z) - Wavelet-Driven Masked Image Modeling: A Path to Efficient Visual Representation [27.576174611043367]
Masked Image Modeling (MIM)は、下流タスクに適したスケーラブルな視覚表現を学習する能力のおかげで、自己教師付き学習において大きな注目を集めている。
しかし、画像は本質的に冗長な情報を含んでいるため、画素ベースのMIM再構成プロセスはテクスチャなどの細部に過度に集中し、不要なトレーニング時間を延ばすことになる。
本研究では,MIMの学習過程を高速化するために,ウェーブレット変換を効率的な表現学習のツールとして活用する。
論文 参考訳(メタデータ) (2025-03-02T08:11:26Z) - Frequency-Spatial Entanglement Learning for Camouflaged Object Detection [34.426297468968485]
既存の手法では、複雑な設計で空間的特徴の識別能力を最大化することにより、画素類似性の影響を減らそうとしている。
本稿では,周波数領域と空間領域の表現を共同で探索し,周波数空間の絡み合い学習(FSEL)手法を提案する。
我々の実験は、広く使われている3つのデータセットにおける包括的量的および質的比較を通じて、21以上の最先端手法によるFSELの優位性を実証した。
論文 参考訳(メタデータ) (2024-09-03T07:58:47Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - An Advanced Features Extraction Module for Remote Sensing Image Super-Resolution [0.5461938536945723]
チャネル・アンド・スペースアテンション特徴抽出(CSA-FE)と呼ばれる高度な特徴抽出モジュールを提案する。
提案手法は,高頻度情報を含む特定のチャネルや空間的位置に着目し,関連する特徴に焦点を合わせ,無関係な特徴を抑えるのに役立つ。
本モデルは,既存モデルと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-07T18:15:51Z) - Dynamic Spectrum Mixer for Visual Recognition [17.180863898764194]
動的スペクトルミキサー (DSM) という,コンテンツ適応型だが計算効率のよい構造を提案する。
DSMはコサイン変換を用いて周波数領域におけるトークンの相互作用を表す。
ログ線形複雑性で長期空間依存を学習することができる。
論文 参考訳(メタデータ) (2023-09-13T04:51:15Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。