論文の概要: FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation
- arxiv url: http://arxiv.org/abs/2502.03829v1
- Date: Thu, 06 Feb 2025 07:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 15:30:40.666707
- Title: FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation
- Title(参考訳): FE-UNet:Versatile Image Segmentationのためのセグメンテーション機能を備えた周波数領域拡張U-Net
- Authors: Guohao Huo, Ruiting Dai, Ling Shao, Hao Tang,
- Abstract要約: CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
- 参考スコア(独自算出の注目度): 50.9040167152168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image segmentation is a critical task in visual understanding. Convolutional Neural Networks (CNNs) are predisposed to capture high-frequency features in images, while Transformers exhibit a contrasting focus on low-frequency features. In this paper, we experimentally quantify the contrast sensitivity function of CNNs and compare it with that of the human visual system, informed by the seminal experiments of Mannos and Sakrison. Leveraging these insights, we propose the Wavelet-Guided Spectral Pooling Module (WSPM) to enhance and balance image features across the frequency domain. To further emulate the human visual system, we introduce the Frequency Domain Enhanced Receptive Field Block (FE-RFB), which integrates WSPM to extract enriched features from the frequency domain. Building on these innovations, we develop FE-UNet, a model that utilizes SAM2 as its backbone and incorporates Hiera-Large as a pre-trained block, designed to enhance generalization capabilities while ensuring high segmentation accuracy. Experimental results demonstrate that FE-UNet achieves state-of-the-art performance in diverse tasks, including marine animal and polyp segmentation, underscoring its versatility and effectiveness.
- Abstract(参考訳): イメージセグメンテーションは視覚的理解において重要な課題である。
畳み込みニューラルネットワーク(CNN)は、画像内の高周波特徴をキャプチャするために想定されているが、トランスフォーマーは低周波特徴に対照的な焦点を呈している。
本稿では,CNNのコントラスト感度関数を実験的に定量化し,マンノスとサクリソンのセミナル実験から情報を得た人間の視覚システムと比較する。
これらの知見を生かして、周波数領域における画像特徴の強調とバランスをとるために、Wavelet-Guided Spectral Pooling Module (WSPM)を提案する。
人間の視覚システムをさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入し、WSPMを統合して周波数領域からリッチな特徴を抽出する。
これらのイノベーションに基づいて,SAM2をバックボーンとし,Hiera-Largeを事前学習ブロックとして組み込んだFE-UNetを開発した。
実験の結果, FE-UNetは海洋動物, ポリープセグメンテーションなど様々なタスクにおいて, その汎用性と有効性を実証した。
関連論文リスト
- Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - Neuromorphic Wireless Split Computing with Resonate-and-Fire Neurons [69.73249913506042]
本稿では、共振器(RF)ニューロンを用いて時間領域信号を直接処理する無線スプリットコンピューティングアーキテクチャについて検討する。
可変周波数で共鳴することにより、RFニューロンは低スパイク活性を維持しながら時間局在スペクトル特徴を抽出する。
実験の結果,提案したRF-SNNアーキテクチャは従来のLIF-SNNやANNと同等の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-06-24T21:14:59Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - FreqU-FNet: Frequency-Aware U-Net for Imbalanced Medical Image Segmentation [0.0]
FreqU-FNetは周波数領域で動作する新しいU字型セグメンテーションアーキテクチャである。
我々のフレームワークは、低パス畳み込みとDubechiesウェーブレットに基づくダウンサンプリングを利用する周波数を組み込んでいる。
複数の医療セグメンテーションベンチマークの実験では、FreqU-FNetはCNNとTransformerのベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-23T06:51:24Z) - Efficient and Robust Multidimensional Attention in Remote Physiological Sensing through Target Signal Constrained Factorization [7.947387272047604]
マルチモーダルビデオ入力からの光胸腺造影(rRSP)信号と呼吸(rRSP)信号の同時推定を目的とした,効率的なデュアルブランチ3D-CNNアーキテクチャであるMMRPhysを提案する。
TSFMを用いたMMRPhysは、リアルタイムアプリケーションに適した最小の推論レイテンシを維持しつつ、RRSP推定のための領域シフトの一般化において最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-05-11T15:20:45Z) - Self-Bootstrapping for Versatile Test-Time Adaptation [29.616417768209114]
我々は様々なタスクに対して多目的なテスト時間適応(TTA)の目標を策定する。
テスト画像(ターゲット)と劣化したビューとの予測一貫性を最適化する自己ブートストラップ方式によりこれを実現できる。
実験により, 独立に, あるいはプラグアンドプレイモジュールとして, 分類, セグメンテーション, 3次元単分子検出タスクにおいて, 優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2025-04-10T05:45:07Z) - Adaptive Frequency Enhancement Network for Remote Sensing Image Semantic Segmentation [33.49405456617909]
本稿では、適応周波数と空間特徴の相互作用モジュール(AFSIM)と選択特徴の融合モジュール(SFM)の2つの重要なコンポーネントを統合した適応周波数拡張ネットワーク(AFENet)を提案する。
AFSIMは入力画像の内容に応じて、高周波数特徴と低周波特徴を動的に分離・変調する。
SFMは、ネットワークの表現能力を高めるために、グローバルコンテキストとローカル詳細機能を選択的に融合する。
論文 参考訳(メタデータ) (2025-04-03T14:42:49Z) - Adaptive Wavelet Filters as Practical Texture Feature Amplifiers for Parkinson's Disease Screening in OCT [8.900984680843651]
パーキンソン病(英: Parkinson's disease、PD)は、世界的な神経変性疾患である。
近年の研究では、網膜層から抽出したテクスチャの特徴がPD診断のバイオマーカーとして採用されていることが示唆されている。
本稿では,実用的なテクスチャ特徴増幅器として機能する適応ウェーブレットフィルタ(AWF)を提案する。
論文 参考訳(メタデータ) (2025-03-25T02:47:24Z) - Wavelet-Driven Masked Image Modeling: A Path to Efficient Visual Representation [27.576174611043367]
Masked Image Modeling (MIM)は、下流タスクに適したスケーラブルな視覚表現を学習する能力のおかげで、自己教師付き学習において大きな注目を集めている。
しかし、画像は本質的に冗長な情報を含んでいるため、画素ベースのMIM再構成プロセスはテクスチャなどの細部に過度に集中し、不要なトレーニング時間を延ばすことになる。
本研究では,MIMの学習過程を高速化するために,ウェーブレット変換を効率的な表現学習のツールとして活用する。
論文 参考訳(メタデータ) (2025-03-02T08:11:26Z) - CardiacMamba: A Multimodal RGB-RF Fusion Framework with State Space Models for Remote Physiological Measurement [24.511384674989223]
遠隔光麻痺(rPl)による心拍数(HR)推定は、健康モニタリングに非侵襲的な解決策を提供する。
従来の単一モダリティアプローチ(RGBまたはRF)は、照明のバリエーション、モーションアーティファクト、皮膚のトーンバイアスによるロバストさと精度のバランスをとる上で、課題に直面している。
両モードの相補的強度を利用するマルチモーダルRGB-RF融合フレームワークであるCardiacMambaを提案する。
論文 参考訳(メタデータ) (2025-02-19T11:00:34Z) - Frequency-Spatial Entanglement Learning for Camouflaged Object Detection [34.426297468968485]
既存の手法では、複雑な設計で空間的特徴の識別能力を最大化することにより、画素類似性の影響を減らそうとしている。
本稿では,周波数領域と空間領域の表現を共同で探索し,周波数空間の絡み合い学習(FSEL)手法を提案する。
我々の実験は、広く使われている3つのデータセットにおける包括的量的および質的比較を通じて、21以上の最先端手法によるFSELの優位性を実証した。
論文 参考訳(メタデータ) (2024-09-03T07:58:47Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - An Advanced Features Extraction Module for Remote Sensing Image Super-Resolution [0.5461938536945723]
チャネル・アンド・スペースアテンション特徴抽出(CSA-FE)と呼ばれる高度な特徴抽出モジュールを提案する。
提案手法は,高頻度情報を含む特定のチャネルや空間的位置に着目し,関連する特徴に焦点を合わせ,無関係な特徴を抑えるのに役立つ。
本モデルは,既存モデルと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-07T18:15:51Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Dynamic Spectrum Mixer for Visual Recognition [17.180863898764194]
動的スペクトルミキサー (DSM) という,コンテンツ適応型だが計算効率のよい構造を提案する。
DSMはコサイン変換を用いて周波数領域におけるトークンの相互作用を表す。
ログ線形複雑性で長期空間依存を学習することができる。
論文 参考訳(メタデータ) (2023-09-13T04:51:15Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。