論文の概要: Phi-SegNet: Phase-Integrated Supervision for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2601.16064v1
- Date: Thu, 22 Jan 2026 16:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.641645
- Title: Phi-SegNet: Phase-Integrated Supervision for Medical Image Segmentation
- Title(参考訳): Phi-SegNet:医療画像セグメンテーションのためのフェーズ・インテグレート・スーパービジョン
- Authors: Shams Nafisa Ali, Taufiq Hasan,
- Abstract要約: アーキテクチャレベルと最適化レベルの両方で位相認識情報を組み込んだCNNベースのアーキテクチャであるPhi-SegNetを提案する。
Phi-SegNetは、X線、米国、病理、MRI、大腸内視鏡にまたがる5つの公開データセットで、一貫して最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 1.76179873429447
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning has substantially advanced medical image segmentation, yet achieving robust generalization across diverse imaging modalities and anatomical structures remains a major challenge. A key contributor to this limitation lies in how existing architectures, ranging from CNNs to Transformers and their hybrids, primarily encode spatial information while overlooking frequency-domain representations that capture rich structural and textural cues. Although few recent studies have begun exploring spectral information at the feature level, supervision-level integration of frequency cues-crucial for fine-grained object localization-remains largely untapped. To this end, we propose Phi-SegNet, a CNN-based architecture that incorporates phase-aware information at both architectural and optimization levels. The network integrates Bi-Feature Mask Former (BFMF) modules that blend neighboring encoder features to reduce semantic gaps, and Reverse Fourier Attention (RFA) blocks that refine decoder outputs using phase-regularized features. A dedicated phase-aware loss aligns these features with structural priors, forming a closed feedback loop that emphasizes boundary precision. Evaluated on five public datasets spanning X-ray, US, histopathology, MRI, and colonoscopy, Phi-SegNet consistently achieved state-of-the-art performance, with an average relative improvement of 1.54+/-1.26% in IoU and 0.98+/-0.71% in F1-score over the next best-performing model. In cross-dataset generalization scenarios involving unseen datasets from the known domain, Phi-SegNet also exhibits robust and superior performance, highlighting its adaptability and modality-agnostic design. These findings demonstrate the potential of leveraging spectral priors in both feature representation and supervision, paving the way for generalized segmentation frameworks that excel in fine-grained object localization.
- Abstract(参考訳): 深層学習は医用画像のセグメンテーションを大幅に進歩させたが、多様な画像モダリティと解剖学的構造をまたいだ堅牢な一般化を実現することは大きな課題である。
この制限に対する重要な貢献は、CNNからトランスフォーマーやそれらのハイブリッドに至るまで、既存のアーキテクチャがどのようにして空間情報をエンコードし、リッチな構造的およびテクスチュラルなキューをキャプチャする周波数領域表現を見渡すかである。
近年, スペクトル情報を特徴レベルで探究する研究はほとんどないが, 微粒な物体の局所化-残留物に対する周波数キュー・クラシカルの監督レベル統合は, ほとんど未解決である。
そこで我々は,CNNベースのアーキテクチャであるPhi-SegNetを提案する。
ネットワークは、近隣のエンコーダ機能をブレンドしてセマンティックギャップを減らすBi-Feature Mask former (BFMF)モジュールと、位相規則化された特徴を用いてデコーダ出力を洗練させるReverse Fourier Attention (RFA)ブロックを統合する。
専用の位相認識損失は、これらの特徴を構造的先行と整合させ、境界精度を強調する閉じたフィードバックループを形成する。
X線、米国、病理、MRI、大腸内視鏡の5つの公開データセットで評価され、Phi-SegNetは一貫して最先端のパフォーマンスを達成し、IoUでは平均1.54+/-1.26%、次の最高のパフォーマンスモデルでは0.98+/-0.71%だった。
Phi-SegNetは、既知のドメインからの未確認データセットを含むデータセット間の一般化シナリオにおいても、堅牢で優れたパフォーマンスを示し、適応性とモダリティに依存しない設計を強調している。
これらの結果は、特徴表現と監督の両方においてスペクトル先行性を活用する可能性を示し、細粒度物体の局所化に優れた一般化セグメンテーションフレームワークの道を開いた。
関連論文リスト
- Decoding with Structured Awareness: Integrating Directional, Frequency-Spatial, and Structural Attention for Medical Image Segmentation [6.82200201381917]
本稿では,3つのコアモジュールからなる医用画像セグメンテーション用に設計された新しいデコーダフレームワークを提案する。
まず,アダプティブクロスフュージョン・アテンション(ACFA)モジュールは,チャネル機能強化と空間的アテンション機構を統合し,キー領域や構造方向に対する応答性を高める。
第2に、三重特徴融合注意(TFFA)モジュールは、空間、フーリエ、ウェーブレットの各領域の特徴を融合させ、エッジやテクスチャなどのローカル情報を保存しながら、結合周波数空間表現を実現する。
第3に、マルチスケールコンテキストと構造sを利用して、エンコーダとデコーダのスキップ接続を最適化する構造対応マルチスケールマスキングモジュール(SMMM)
論文 参考訳(メタデータ) (2025-12-05T07:39:14Z) - WaveSeg: Enhancing Segmentation Precision via High-Frequency Prior and Mamba-Driven Spectrum Decomposition [61.3530659856013]
本稿では,空間およびウェーブレット領域の機能改善を共同で最適化する新しいデコーダアーキテクチャであるWaveSegを提案する。
高周波成分は、まず入力画像から、境界の詳細を強化するために明示的な先行として学習される。
標準ベンチマークの実験では、Mambaベースの注目に先立ってウェーブレット-ドメイン周波数を利用するWaveSegが、常に最先端のアプローチより優れていることが示されている。
論文 参考訳(メタデータ) (2025-10-24T01:41:31Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - UESA-Net: U-Shaped Embedded Multidirectional Shrinkage Attention Network for Ultrasound Nodule Segmentation [12.967178888045728]
既存のネットワークは、低レベルの空間的詳細と高レベルのセマンティクスの整合に苦慮している。
我々は,多方向縮小に着目したU字型ネットワークUESA-Netを提案する。
2つの公開データセットにおいて、UESA-Netは、それぞれ0.8487と0.6495の交差一致(IoU)スコアで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-09-26T14:54:38Z) - Unleashing Vision Foundation Models for Coronary Artery Segmentation: Parallel ViT-CNN Encoding and Variational Fusion [12.839049648094893]
冠動脈セグメンテーションは冠動脈疾患(CAD)のコンピュータ診断に重要である
並列符号化アーキテクチャを用いて,視覚基盤モデル(VFM)のパワーを利用する新しいフレームワークを提案する。
提案手法は, 精度の高い冠動脈セグメンテーションにおいて, 最先端の手法よりも優れ, 優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-07-17T09:25:00Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - Meta-Exploiting Frequency Prior for Cross-Domain Few-Shot Learning [86.99944014645322]
クロスドメインなFew-Shot学習のための新しいフレームワーク,Meta-Exploiting Frequency Priorを導入する。
各クエリ画像を高周波および低周波成分に分解し,特徴埋め込みネットワークに並列に組み込む。
本フレームワークは、複数のドメイン間数ショット学習ベンチマークにおいて、最先端の新たな結果を確立する。
論文 参考訳(メタデータ) (2024-11-03T04:02:35Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。