論文の概要: HRMedSeg: Unlocking High-resolution Medical Image segmentation via Memory-efficient Attention Modeling
- arxiv url: http://arxiv.org/abs/2504.06205v1
- Date: Tue, 08 Apr 2025 16:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:28:45.320234
- Title: HRMedSeg: Unlocking High-resolution Medical Image segmentation via Memory-efficient Attention Modeling
- Title(参考訳): HRMedSeg:メモリ効率アテンションモデリングによる高解像度医用画像セグメンテーションの解錠
- Authors: Qing Xu, Zhenye Lou, Chenxin Li, Xiangjian He, Rong Qu, Tesema Fiseha Berhanu, Yi Wang, Wenting Duan, Zhen Chen,
- Abstract要約: HRMedSegと呼ばれる高解像度医用画像分割のためのメモリ効率フレームワークを提案する。
具体的には,画像エンコーダとして軽視変換器(LGViT)を考案し,線形複雑度で長距離依存をモデル化する。
そこで我々は,高分解能セグメンテーションマスクを生成するための効率的なクロスマルチスケールデコーダ (ECM-Decoder) を設計する。
特にHRMedSegは、微調整中にバッチ毎にわずか0.59GBのGPUメモリしか使用せず、トレーニングコストの低さを示している。
- 参考スコア(独自算出の注目度): 12.401801435516626
- License:
- Abstract: High-resolution segmentation is critical for precise disease diagnosis by extracting micro-imaging information from medical images. Existing transformer-based encoder-decoder frameworks have demonstrated remarkable versatility and zero-shot performance in medical segmentation. While beneficial, they usually require huge memory costs when handling large-size segmentation mask predictions, which are expensive to apply to real-world scenarios. To address this limitation, we propose a memory-efficient framework for high-resolution medical image segmentation, called HRMedSeg. Specifically, we first devise a lightweight gated vision transformer (LGViT) as our image encoder to model long-range dependencies with linear complexity. Then, we design an efficient cross-multiscale decoder (ECM-Decoder) to generate high-resolution segmentation masks. Moreover, we utilize feature distillation during pretraining to unleash the potential of our proposed model. Extensive experiments reveal that HRMedSeg outperforms state-of-the-arts in diverse high-resolution medical image segmentation tasks. In particular, HRMedSeg uses only 0.59GB GPU memory per batch during fine-tuning, demonstrating low training costs. Besides, when HRMedSeg meets the Segment Anything Model (SAM), our HRMedSegSAM takes 0.61% parameters of SAM-H. The code is available at https://github.com/xq141839/HRMedSeg.
- Abstract(参考訳): 高分解能セグメンテーションは、医療画像から微小画像情報を抽出することにより、正確な疾患診断に重要である。
既存のトランスフォーマーベースのエンコーダデコーダフレームワークは、医療セグメント化において、優れた汎用性とゼロショット性能を示してきた。
メリットはあるものの、大規模なセグメンテーションマスク予測を扱う場合、通常は膨大なメモリコストを必要とします。
この制限に対処するため,HRMedSegと呼ばれる高分解能医用画像分割のためのメモリ効率フレームワークを提案する。
具体的には,画像エンコーダとして軽量ゲート型視覚変換器(LGViT)を考案し,線形複雑度で長距離依存性をモデル化する。
そこで我々は,高分解能セグメンテーションマスクを生成するための効率的なクロスマルチスケールデコーダ (ECM-Decoder) を設計する。
さらに,プレトレーニング中の特徴蒸留を利用して,提案モデルのポテンシャルを解き放つ。
大規模な実験により、HRMedSegは様々な高解像度の医用画像セグメンテーションタスクにおいて最先端技術を上回ることが判明した。
特にHRMedSegは、微調整中にバッチ毎にわずか0.59GBのGPUメモリしか使用せず、トレーニングコストの低さを示している。
さらに、HRMedSegがSegment Anything Model (SAM)と出会うと、HRMedSegSAMはSAM-Hの0.61%のパラメータを取る。
コードはhttps://github.com/xq141839/HRMedSegで入手できる。
関連論文リスト
- MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation [0.8437187555622164]
本研究では、予め訓練されたLCMトランスブロックを統合することで、医用画像セグメンテーションのためのビジョントランス(ViT)の強化について検討する。
凍結LDM変換器ブロックをViTモデルエンコーダに組み込んだ手法により,セグメント化性能が大幅に向上した。
改良されたモデルでは、平均Diceスコアが0.74から0.79に向上し、精度、精度、ジャカード指数が向上した。
論文 参考訳(メタデータ) (2024-10-03T14:50:33Z) - Prompting Segment Anything Model with Domain-Adaptive Prototype for Generalizable Medical Image Segmentation [49.5901368256326]
医用画像のセグメンテーションにおけるセグメンテーションモデル(DAPSAM)の微調整のための新しいドメイン適応型プロンプトフレームワークを提案する。
DAPSAMは,2つの医療画像分割タスクにおいて,異なるモダリティで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-19T07:28:33Z) - MedSAGa: Few-shot Memory Efficient Medical Image Segmentation using Gradient Low-Rank Projection in SAM [0.0]
本稿では,Galore MedSAGaを用いたSegment Anything Modelを提案する。
MedSAGaのメモリ効率とパラメータセグメンテーション性能を複数の医用画像セグメンテーションデータセットで比較した。
メモリ要件が大幅に低く、SOTAに匹敵する組み合わせによって、リソース制約のある設定でのデプロイメントに最適なソリューションとして、MedSAGaを数ショットの学習位置で実現する。
論文 参考訳(メタデータ) (2024-07-21T03:34:49Z) - Generative Medical Segmentation [5.4613210257624605]
生成医療 (Generative Medical, GMS) は、生成モデルを利用して画像セグメンテーションを行う新しいアプローチである。
GMSは、画像とそれに対応する接地真実マスクの潜在表現を抽出するために、頑健な事前訓練された視覚基盤モデルを採用している。
GMSの設計により、モデルのトレーニング可能なパラメータが少なくなり、オーバーフィットのリスクが軽減され、その能力が向上する。
論文 参考訳(メタデータ) (2024-03-27T02:16:04Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - I-MedSAM: Implicit Medical Image Segmentation with Segment Anything [24.04558900909617]
提案するI-MedSAMは、連続表現とSAMの両方の利点を利用して、クロスドメイン能力と正確な境界線を求める。
トレーニング可能なパラメータが1.6Mしかない提案手法は、離散的および暗黙的を含む既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-28T00:43:52Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - Self-Supervised Correction Learning for Semi-Supervised Biomedical Image
Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。
共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。
異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-01-12T08:19:46Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - Modeling the Probabilistic Distribution of Unlabeled Data forOne-shot
Medical Image Segmentation [40.41161371507547]
我々は1ショットの脳磁気共鳴画像(MRI)画像分割のためのデータ拡張法を開発した。
提案手法は,MRI画像1枚(atlas)とラベルなし画像数枚のみを利用する。
本手法は最先端のワンショット医療セグメンテーション法より優れている。
論文 参考訳(メタデータ) (2021-02-03T12:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。