論文の概要: U-DFA: A Unified DINOv2-Unet with Dual Fusion Attention for Multi-Dataset Medical Segmentation
- arxiv url: http://arxiv.org/abs/2510.00585v1
- Date: Wed, 01 Oct 2025 07:06:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.43343
- Title: U-DFA: A Unified DINOv2-Unet with Dual Fusion Attention for Multi-Dataset Medical Segmentation
- Title(参考訳): U-DFA:マルチデータセット・メディカルセグメンテーションのためのデュアルフュージョン注意統合DINOv2-Unet
- Authors: Zulkaif Sajjad, Furqan Shaukat, Junaid Mir,
- Abstract要約: U-DFAはDINOv2-Unetエンコーダとデコーダを統一したアーキテクチャで,新たにLGFA(Local-Global Fusion Adapter)を統合し,セグメンテーション性能を向上させる。
本手法は,トレーニング可能なモデルパラメータの33%に過ぎず,Synapse と ACDC のデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 1.1724961392643483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate medical image segmentation plays a crucial role in overall diagnosis and is one of the most essential tasks in the diagnostic pipeline. CNN-based models, despite their extensive use, suffer from a local receptive field and fail to capture the global context. A common approach that combines CNNs with transformers attempts to bridge this gap but fails to effectively fuse the local and global features. With the recent emergence of VLMs and foundation models, they have been adapted for downstream medical imaging tasks; however, they suffer from an inherent domain gap and high computational cost. To this end, we propose U-DFA, a unified DINOv2-Unet encoder-decoder architecture that integrates a novel Local-Global Fusion Adapter (LGFA) to enhance segmentation performance. LGFA modules inject spatial features from a CNN-based Spatial Pattern Adapter (SPA) module into frozen DINOv2 blocks at multiple stages, enabling effective fusion of high-level semantic and spatial features. Our method achieves state-of-the-art performance on the Synapse and ACDC datasets with only 33\% of the trainable model parameters. These results demonstrate that U-DFA is a robust and scalable framework for medical image segmentation across multiple modalities.
- Abstract(参考訳): 正確な医用画像分割は、全体的な診断において重要な役割を担い、診断パイプラインにおいて最も重要なタスクの1つである。
CNNベースのモデルは、広く使われているにもかかわらず、局所的な受容領域に悩まされ、グローバルなコンテキストを捉えられなかった。
CNNとトランスフォーマーを組み合わせた一般的なアプローチは、このギャップを埋めようとするが、ローカルとグローバルの機能を効果的に融合させることができない。
近年のVLMやファンデーションモデルが出現し、下流の医療画像に適応しているが、固有の領域ギャップと高い計算コストに悩まされている。
そこで本研究では,DINOv2-Unetエンコーダ・デコーダの統一アーキテクチャであるU-DFAを提案し,新たにLGFA(Local-Global Fusion Adapter)を統合し,セグメンテーション性能を向上させる。
LGFAモジュールは、CNNベースの空間パターンアダプタ(SPA)モジュールから複数のステージで凍結されたDINOv2ブロックに空間的特徴を注入し、高レベルの意味的特徴と空間的特徴を効果的に融合させる。
本手法は,トレーニング可能なモデルパラメータの33倍の精度で,Synapse と ACDC のデータセット上での最先端性能を実現する。
これらの結果から,U-DFAは複数のモダリティにまたがる医用画像セグメンテーションのための堅牢でスケーラブルなフレームワークであることが示された。
関連論文リスト
- A Semantic Segmentation Algorithm for Pleural Effusion Based on DBIF-AUNet [22.657295396752023]
胸水セマンティックセグメンテーションは臨床診断と治療の精度とタイムラインを大幅に向上させる可能性がある。
既存の手法は、様々な画像のバリエーションや複雑なエッジに悩まされることが多い。
本稿では,これらの課題に対処するため,Dual-Branch Interactive Fusion Attention Model (DBIF-AUNet)を提案する。
論文 参考訳(メタデータ) (2025-08-08T10:14:51Z) - CFFormer: Cross CNN-Transformer Channel Attention and Spatial Feature Fusion for Improved Segmentation of Heterogeneous Medical Images [29.68616115427831]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
医用撮像装置の限界により、医用画像は大きな異質性を示し、セグメンテーションの課題を提起する。
本稿では,効果的なチャネル特徴抽出を利用するCFFormerと呼ばれるハイブリッドCNN-Transformerモデルを提案する。
論文 参考訳(メタデータ) (2025-01-07T08:59:20Z) - Prompting Segment Anything Model with Domain-Adaptive Prototype for Generalizable Medical Image Segmentation [49.5901368256326]
医用画像のセグメンテーションにおけるセグメンテーションモデル(DAPSAM)の微調整のための新しいドメイン適応型プロンプトフレームワークを提案する。
DAPSAMは,2つの医療画像分割タスクにおいて,異なるモダリティで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-19T07:28:33Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image
Segmentation [0.0]
本稿では,医療画像の正確な分割のために,身体情報とエッジ情報の融合を強化するBEFUnetという,革新的なU字型ネットワークを提案する。
BEFUnetは、新しいローカル・クロス・アテンション・フィーチャー(LCAF)融合モジュール、新しいダブル・レベル・フュージョン(DLF)モジュール、デュアルブランチ・エンコーダの3つの主要モジュールから構成されている。
LCAFモジュールは、2つのモダリティの間に空間的に近接する特徴に対して、局所的な相互注意を選択的に行うことにより、エッジとボディの特徴を効率よく融合させる。
論文 参考訳(メタデータ) (2024-02-13T21:03:36Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - MCPA: Multi-scale Cross Perceptron Attention Network for 2D Medical
Image Segmentation [7.720152925974362]
MCPA(Multiscale Cross Perceptron Attention Network)と呼ばれる2次元医用画像分割モデルを提案する。
MCPAは、エンコーダ、デコーダ、クロスパーセプトロンの3つの主要コンポーネントで構成されている。
提案したMCPAモデルを,様々なタスクやデバイスから利用可能ないくつかの医用画像データセット上で評価した。
論文 参考訳(メタデータ) (2023-07-27T02:18:12Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Cross-Modality Brain Tumor Segmentation via Bidirectional
Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。
具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。
提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-05-17T10:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。