論文の概要: ENSAM: an efficient foundation model for interactive segmentation of 3D medical images
- arxiv url: http://arxiv.org/abs/2509.15874v1
- Date: Fri, 19 Sep 2025 11:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.139495
- Title: ENSAM: an efficient foundation model for interactive segmentation of 3D medical images
- Title(参考訳): 3次元医用画像の対話的セグメンテーションのための効率的な基礎モデルENSAM
- Authors: Elias Stenhede, Agnar Martin Bjørnstad, Arian Ranjbar,
- Abstract要約: ENSAMは、普遍的な3次元医用画像セグメンテーションのためのプロンプト可能なモデルである。
ENSAMは、限られたデータと計算予算の下で優れた性能を達成するように設計されている。
ENSAMは, マルチモーダル3次元医用画像を用いた隠れテストセットで評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ENSAM (Equivariant, Normalized, Segment Anything Model), a lightweight and promptable model for universal 3D medical image segmentation. ENSAM combines a SegResNet-based encoder with a prompt encoder and mask decoder in a U-Net-style architecture, using latent cross-attention, relative positional encoding, normalized attention, and the Muon optimizer for training. ENSAM is designed to achieve good performance under limited data and computational budgets, and is trained from scratch on under 5,000 volumes from multiple modalities (CT, MRI, PET, ultrasound, microscopy) on a single 32 GB GPU in 6 hours. As part of the CVPR 2025 Foundation Models for Interactive 3D Biomedical Image Segmentation Challenge, ENSAM was evaluated on hidden test set with multimodal 3D medical images, obtaining a DSC AUC of 2.404, NSD AUC of 2.266, final DSC of 0.627, and final NSD of 0.597, outperforming two previously published baseline models (VISTA3D, SAM-Med3D) and matching the third (SegVol), surpassing its performance in final DSC but trailing behind in the other three metrics. In the coreset track of the challenge, ENSAM ranks 5th of 10 overall and best among the approaches not utilizing pretrained weights. Ablation studies confirm that our use of relative positional encodings and the Muon optimizer each substantially speed up convergence and improve segmentation quality.
- Abstract(参考訳): 広義の3次元医用画像分割のための軽量かつ迅速なモデルであるENSAM(Equivariant, Normalized, Segment Anything Model)を提案する。
ENSAMは、SegResNetベースのエンコーダとプロンプトエンコーダとマスクデコーダをU-Netスタイルのアーキテクチャで組み合わせ、潜伏したクロスアテンション、相対的な位置エンコーディング、正規化された注意、トレーニングのためのミューオンオプティマイザを使用する。
ENSAMは、限られたデータと計算予算の下で優れたパフォーマンスを達成するように設計されており、6時間で1つの32GB GPU上で、CT、MRI、PET、超音波、顕微鏡などの複数のモードから、5000巻未満のボリュームでスクラッチからトレーニングされている。
CVPR 2025 Foundation Models for Interactive 3D Biomedical Image Segmentation Challengeの一環として、ENSAMはマルチモーダルな3D医療画像を用いた隠れテストセットで評価され、DSC AUCは2.404、NSD AUCは2.266、最終DSCは0.627、最終SDは0.597となり、これまでに発表された2つのベースラインモデル(VISTA3D、SAM-Med3D)と3番目のマッチングモデル(SegVol)を上回り、最終的なDSCのパフォーマンスを上回り、他の3つの指標に後れを取っていた。
挑戦のコアセットトラックでは、ENSAMは総合10の5位にランクされ、事前訓練された重量を使用しないアプローチの中では最高である。
アブレーション研究により、相対的な位置エンコーディングとミューオンオプティマイザがそれぞれ収束を著しく高速化し、セグメンテーション品質を向上させることが確認された。
関連論文リスト
- MedSAM2: Segment Anything in 3D Medical Images and Videos [16.709180067792538]
本稿では,3次元画像と映像のセグメンテーションのための高速セグメンテーション基盤モデルであるMedSAM2を提案する。
このモデルは、Segment Anything Model 2を455,000以上の3Dイメージマスクペアと76,000フレームの大規模な医療データセットで微調整することによって開発されている。
さらに、我々は、大規模データセットの作成を容易にするために、5,000個のCT病変、3,984個の肝MRI病変、251,550個の心エコービデオフレームのアノテーションを含む、我々の知る限り、これまでで最も広範なユーザー調査を行った。
論文 参考訳(メタデータ) (2025-04-04T17:13:37Z) - Improved Baselines with Synchronized Encoding for Universal Medical Image Segmentation [34.08601740109437]
SyncSAMは、医用画像符号化を強化するために、畳み込みとトランスフォーマー機能を統合した同期デュアルブランチエンコーダを使用する。
SyncSAMはテストセットで最先端のパフォーマンスを実現し、目に見えないデータセットで強力なゼロショット機能を示す。
論文 参考訳(メタデータ) (2024-08-19T11:01:00Z) - Stitching, Fine-tuning, Re-training: A SAM-enabled Framework for Semi-supervised 3D Medical Image Segmentation [40.79197318484472]
SAMファインチューニングは, 医用画像のセグメンテーションにおいて, 完全に教師された方法で顕著な性能を示した。
SFR(Stitching, Fine-tuning, Re-training)という3段階のフレームワークを提案する。
我々のSFRフレームワークはプラグイン・アンド・プレイであり、様々な人気のある半教師付き手法と容易に互換性がある。
論文 参考訳(メタデータ) (2024-03-17T14:30:56Z) - Large-Vocabulary Segmentation for Medical Images with Text Prompts [68.9193694019039]
本稿では,SATと呼ばれるテキストプロンプトとして医療用語を駆使した3次元医用画像に任意のセグメンテーションを組み込むモデルを構築することを目的とする。
6502個の解剖学的用語を含む,ヒト解剖学上の最初のマルチモーダル知識ツリーを構築した。
トレーニング用の最大かつ最も包括的なセグメンテーションデータセットを構築し、72データセットから22K以上の3Dスキャンを収集します。
論文 参考訳(メタデータ) (2023-12-28T18:16:00Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。