論文の概要: S$^3$F-Net: A Multi-Modal Approach to Medical Image Classification via Spatial-Spectral Summarizer Fusion Network
- arxiv url: http://arxiv.org/abs/2509.23442v1
- Date: Sat, 27 Sep 2025 18:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.230546
- Title: S$^3$F-Net: A Multi-Modal Approach to Medical Image Classification via Spatial-Spectral Summarizer Fusion Network
- Title(参考訳): S$3$F-Net:空間スペクトルSummarizer Fusion Networkによる医用画像分類へのマルチモーダルアプローチ
- Authors: Md. Saiful Bari Siddiqui, Mohammed Imamul Hassan Bhuiyan,
- Abstract要約: 空間表現とスペクトル表現の両方から同時に学習するデュアルブランチフレームワークを提案する。
異なるモダリティにまたがる4つの医用画像データセットに対して,S$3$F-Netを評価した。
我々のフレームワークは、すべてのケースにおいて、その強い空間のみのベースラインを一貫して、著しく上回ります。
- 参考スコア(独自算出の注目度): 0.20625936401496228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks have become a cornerstone of medical image analysis due to their proficiency in learning hierarchical spatial features. However, this focus on a single domain is inefficient at capturing global, holistic patterns and fails to explicitly model an image's frequency-domain characteristics. To address these challenges, we propose the Spatial-Spectral Summarizer Fusion Network (S$^3$F-Net), a dual-branch framework that learns from both spatial and spectral representations simultaneously. The S$^3$F-Net performs a fusion of a deep spatial CNN with our proposed shallow spectral encoder, SpectraNet. SpectraNet features the proposed SpectralFilter layer, which leverages the Convolution Theorem by applying a bank of learnable filters directly to an image's full Fourier spectrum via a computation-efficient element-wise multiplication. This allows the SpectralFilter layer to attain a global receptive field instantaneously, with its output being distilled by a lightweight summarizer network. We evaluate S$^3$F-Net across four medical imaging datasets spanning different modalities to validate its efficacy and generalizability. Our framework consistently and significantly outperforms its strong spatial-only baseline in all cases, with accuracy improvements of up to 5.13%. With a powerful Bilinear Fusion, S$^3$F-Net achieves a SOTA competitive accuracy of 98.76% on the BRISC2025 dataset. Concatenation Fusion performs better on the texture-dominant Chest X-Ray Pneumonia dataset, achieving 93.11% accuracy, surpassing many top-performing, much deeper models. Our explainability analysis also reveals that the S$^3$F-Net learns to dynamically adjust its reliance on each branch based on the input pathology. These results verify that our dual-domain approach is a powerful and generalizable paradigm for medical image analysis.
- Abstract(参考訳): 畳み込みニューラルネットワークは、階層的な空間的特徴を学習する能力から、医用画像解析の基盤となっている。
しかし、単一の領域に焦点をあてることは、グローバルで全体的パターンを捉えるのに非効率であり、画像の周波数領域特性を明示的にモデル化することができない。
これらの課題に対処するために,空間スペクトルSummarizer Fusion Network (S$^3$F-Net) を提案する。
S$3$F-Netは、提案した浅層スペクトルエンコーダSpectraNetと深部空間CNNの融合を行う。
SpectraNetは提案したSpectralFilter層を特徴としている。これはコンボリューション理論を利用して、学習可能なフィルタのバンクを計算効率のよい要素ワイド乗算によって画像のフルフーリエスペクトルに直接適用する。
これにより、SpectralFilter層は、その出力を軽量の要約ネットワークで蒸留することで、グローバルな受容領域を瞬時に達成することができる。
S$3$F-Netを4つの医用画像データセットで評価し,その有効性と一般化性について検証した。
我々のフレームワークは、すべてのケースにおいて、その強い空間のみのベースラインを一貫して大幅に上回り、精度は最大5.13%向上した。
強力なバイリニア融合により、S$^3$F-Netは、BRISC2025データセットで98.76%のSOTA競合精度を達成する。
結合核融合はテクスチャに支配的なケストX線肺炎データセットにおいて、93.11%の精度を達成し、多くの最高性能のより深いモデルを上回っている。
また、S$^3$F-Netは入力病理に基づいて各分岐への依存度を動的に調整する。
これらの結果は、医用画像解析において、我々の二重領域アプローチが強力で一般化可能なパラダイムであることを検証している。
関連論文リスト
- How Learnable Grids Recover Fine Detail in Low Dimensions: A Neural Tangent Kernel Analysis of Multigrid Parametric Encodings [106.3726679697804]
フーリエ特徴符号化(FFE)とマルチグリッドパラメトリック符号化(MPE)の2つの手法を比較した。
MPEは低次元マッピングの標準と見なされるが、MPEはそれらを上回り、高解像度で詳細な表現を学習することが多い。
我々は,MPEが学習可能な埋め込みではなく,グリッド構造を通じてネットワークの性能を向上させることを証明した。
論文 参考訳(メタデータ) (2025-04-18T02:18:08Z) - Robust Hyperspectral Image Panshapring via Sparse Spatial-Spectral Representation [9.3350274016294]
S$3$RNetはハイパースペクトル画像パネルペンのための新しいフレームワークである。
低分解能ハイパースペクトル画像(LRHSI)と高分解能マルチスペクトル画像(HRMSI)を疎空間スペクトル表現により組み合わせる。
S$3$RNetは、複数の評価指標で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-14T09:09:14Z) - CMTNet: Convolutional Meets Transformer Network for Hyperspectral Images Classification [3.821081081400729]
現在の畳み込みニューラルネットワーク(CNN)は、ハイパースペクトルデータの局所的な特徴に焦点を当てている。
Transformerフレームワークは、ハイパースペクトル画像からグローバルな特徴を抽出する。
本研究は、CMTNet(Convolutional Meet Transformer Network)を紹介する。
論文 参考訳(メタデータ) (2024-06-20T07:56:51Z) - SpectralFormer: Rethinking Hyperspectral Image Classification with
Transformers [91.09957836250209]
ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴づけられる。
CNNは、HS画像分類において強力な特徴抽出器であることが証明されている。
我々は、HS画像分類のためのulSpectralFormerと呼ばれる新しいバックボーンネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T02:59:21Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Spectral Analysis Network for Deep Representation Learning and Image
Clustering [53.415803942270685]
本稿ではスペクトル分析に基づく教師なし深層表現学習のための新しいネットワーク構造を提案する。
パッチレベルで画像間の局所的な類似性を識別できるため、閉塞に対してより堅牢である。
クラスタリングに親しみやすい表現を学習し、データサンプル間の深い相関を明らかにすることができる。
論文 参考訳(メタデータ) (2020-09-11T05:07:15Z) - Hyperspectral Image Super-resolution via Deep Progressive Zero-centric
Residual Learning [62.52242684874278]
空間情報とスペクトル情報の相互モダリティ分布が問題となる。
本稿では,PZRes-Netという,新しいテクスライトウェイトなディープニューラルネットワークベースのフレームワークを提案する。
本フレームワークは,高分解能かつテクテッセロ中心の残像を学習し,シーンの空間的詳細を高頻度で表現する。
論文 参考訳(メタデータ) (2020-06-18T06:32:11Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。