論文の概要: Decoding with Structured Awareness: Integrating Directional, Frequency-Spatial, and Structural Attention for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2512.05494v1
- Date: Fri, 05 Dec 2025 07:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.939838
- Title: Decoding with Structured Awareness: Integrating Directional, Frequency-Spatial, and Structural Attention for Medical Image Segmentation
- Title(参考訳): 構造化された認識による復号:医用画像分割のための方向・周波数・空間・構造的注意の統合
- Authors: Fan Zhang, Zhiwei Gu, Hua Wang,
- Abstract要約: 本稿では,3つのコアモジュールからなる医用画像セグメンテーション用に設計された新しいデコーダフレームワークを提案する。
まず,アダプティブクロスフュージョン・アテンション(ACFA)モジュールは,チャネル機能強化と空間的アテンション機構を統合し,キー領域や構造方向に対する応答性を高める。
第2に、三重特徴融合注意(TFFA)モジュールは、空間、フーリエ、ウェーブレットの各領域の特徴を融合させ、エッジやテクスチャなどのローカル情報を保存しながら、結合周波数空間表現を実現する。
第3に、マルチスケールコンテキストと構造sを利用して、エンコーダとデコーダのスキップ接続を最適化する構造対応マルチスケールマスキングモジュール(SMMM)
- 参考スコア(独自算出の注目度): 6.82200201381917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the limitations of Transformer decoders in capturing edge details, recognizing local textures and modeling spatial continuity, this paper proposes a novel decoder framework specifically designed for medical image segmentation, comprising three core modules. First, the Adaptive Cross-Fusion Attention (ACFA) module integrates channel feature enhancement with spatial attention mechanisms and introduces learnable guidance in three directions (planar, horizontal, and vertical) to enhance responsiveness to key regions and structural orientations. Second, the Triple Feature Fusion Attention (TFFA) module fuses features from Spatial, Fourier and Wavelet domains, achieving joint frequency-spatial representation that strengthens global dependency and structural modeling while preserving local information such as edges and textures, making it particularly effective in complex and blurred boundary scenarios. Finally, the Structural-aware Multi-scale Masking Module (SMMM) optimizes the skip connections between encoder and decoder by leveraging multi-scale context and structural saliency filtering, effectively reducing feature redundancy and improving semantic interaction quality. Working synergistically, these modules not only address the shortcomings of traditional decoders but also significantly enhance performance in high-precision tasks such as tumor segmentation and organ boundary extraction, improving both segmentation accuracy and model generalization. Experimental results demonstrate that this framework provides an efficient and practical solution for medical image segmentation.
- Abstract(参考訳): 3つのコアモジュールからなる医用画像セグメンテーション用に設計された新しいデコーダフレームワークを提案する。
まず,アダプティブ・クロスフュージョン・アテンション(ACFA)モジュールは,チャネル機能強化と空間的注意機構を統合し,3方向(平面,水平,垂直)で学習可能なガイダンスを導入し,キー領域や構造方向に対する応答性を高める。
第2に、Triple Feature Fusion Attention (TFFA)モジュールは、空間、フーリエ、ウェーブレットの各ドメインの特徴を融合させ、エッジやテクスチャといったローカル情報を保存しながら、グローバルな依存性と構造的モデリングを強化する結合周波数空間表現を実現し、複雑でぼやけた境界シナリオにおいて特に有効である。
最後に、構造対応マルチスケールマスキングモジュール(SMMM)は、マルチスケールコンテキストと構造的サリエンシフィルタリングを利用して、エンコーダとデコーダのスキップ接続を最適化し、機能の冗長性を効果的に低減し、セマンティックな相互作用品質を向上させる。
これらのモジュールは,従来のデコーダの欠点に対処するだけでなく,腫瘍のセグメンテーションや臓器境界抽出といった高精度タスクの性能向上,セグメンテーションの精度向上とモデル一般化の両面において,機能向上を図っている。
実験により,本フレームワークは医用画像分割のための効率的かつ実用的なソリューションであることが示された。
関連論文リスト
- Bridging spatial awareness and global context in medical image segmentation [2.750124853532831]
セグメント化性能を向上させるために,新しいU字型エンコーダデコーダネットワークであるU-CycleMLPを提案する。
エンコーダは、位置注意重みブロック、高密度アトラスブロック、ダウンサンプリング演算を用いて、マルチスケールのコンテキスト特徴を学習する。
デコーダは、アップサンプリング操作、高密度アトラスブロック、特徴融合機構を通じて高分解能セグメンテーションマスクを再構成する。
論文 参考訳(メタデータ) (2025-12-06T20:25:24Z) - Frequency-Domain Decomposition and Recomposition for Robust Audio-Visual Segmentation [60.9960601057956]
本稿では2つの主要なモジュールからなる周波数対応オーディオ・ビジュアルコンポスタ(FAVS)フレームワークを紹介する。
FAVSフレームワークは、3つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T12:33:48Z) - SCRNet: Spatial-Channel Regulation Network for Medical Ultrasound Image Segmentation [1.4930126157970809]
CNNベースのメソッドは長距離依存を無視する傾向があり、Transformerベースのメソッドはローカルなコンテキスト情報を見落としてしまう。
本稿では,前層から2つの入力特徴を処理するために設計された新しい特徴集約モジュール(FAM)を提案する。
この戦略により、モジュールは長距離依存とローカルコンテキスト情報の両方に同時に集中することができます。
論文 参考訳(メタデータ) (2025-08-19T15:02:27Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - RL-U$^2$Net: A Dual-Branch UNet with Reinforcement Learning-Assisted Multimodal Feature Fusion for Accurate 3D Whole-Heart Segmentation [0.624829068285122]
機能アライメントのための強化学習により強化されたデュアルブランチU-Netアーキテクチャを提案する。
このモデルは、デュアルブランチU字型ネットワークを用いて、CTとMRIのパッチを並列に処理し、新しいRL-XAlignモジュールを導入する。
公開されているMM-WHS 2017データセットの実験結果は、提案されたRL-U$2$Netが既存の最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-08-04T16:12:06Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - AFFSegNet: Adaptive Feature Fusion Segmentation Network for Microtumors and Multi-Organ Segmentation [31.97835089989928]
医用画像のセグメンテーションは、コンピュータビジョンにおいて重要な課題であり、診断、治療計画、疾患モニタリングにおける臨床医を支援する。
本稿では,局所的特徴とグローバルな特徴を効果的に統合し,正確な医用画像分割を実現するトランスフォーマアーキテクチャである適応意味ネットワーク(ASSNet)を提案する。
多臓器、肝腫瘍、膀胱腫瘍の分節を含む様々な医療画像の分節タスクに関するテストは、ATSNetが最先端の結果を達成することを実証している。
論文 参考訳(メタデータ) (2024-09-12T06:25:44Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification [55.01276167336187]
本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。
STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。
実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
論文 参考訳(メタデータ) (2021-07-25T19:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。