論文の概要: ENSAM: an efficient foundation model for interactive segmentation of 3D medical images
- arxiv url: http://arxiv.org/abs/2509.15874v1
- Date: Fri, 19 Sep 2025 11:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.139495
- Title: ENSAM: an efficient foundation model for interactive segmentation of 3D medical images
- Title(参考訳): 3次元医用画像の対話的セグメンテーションのための効率的な基礎モデルENSAM
- Authors: Elias Stenhede, Agnar Martin Bjørnstad, Arian Ranjbar,
- Abstract要約: ENSAMは、普遍的な3次元医用画像セグメンテーションのためのプロンプト可能なモデルである。
ENSAMは、限られたデータと計算予算の下で優れた性能を達成するように設計されている。
ENSAMは, マルチモーダル3次元医用画像を用いた隠れテストセットで評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ENSAM (Equivariant, Normalized, Segment Anything Model), a lightweight and promptable model for universal 3D medical image segmentation. ENSAM combines a SegResNet-based encoder with a prompt encoder and mask decoder in a U-Net-style architecture, using latent cross-attention, relative positional encoding, normalized attention, and the Muon optimizer for training. ENSAM is designed to achieve good performance under limited data and computational budgets, and is trained from scratch on under 5,000 volumes from multiple modalities (CT, MRI, PET, ultrasound, microscopy) on a single 32 GB GPU in 6 hours. As part of the CVPR 2025 Foundation Models for Interactive 3D Biomedical Image Segmentation Challenge, ENSAM was evaluated on hidden test set with multimodal 3D medical images, obtaining a DSC AUC of 2.404, NSD AUC of 2.266, final DSC of 0.627, and final NSD of 0.597, outperforming two previously published baseline models (VISTA3D, SAM-Med3D) and matching the third (SegVol), surpassing its performance in final DSC but trailing behind in the other three metrics. In the coreset track of the challenge, ENSAM ranks 5th of 10 overall and best among the approaches not utilizing pretrained weights. Ablation studies confirm that our use of relative positional encodings and the Muon optimizer each substantially speed up convergence and improve segmentation quality.
- Abstract(参考訳): 広義の3次元医用画像分割のための軽量かつ迅速なモデルであるENSAM(Equivariant, Normalized, Segment Anything Model)を提案する。
ENSAMは、SegResNetベースのエンコーダとプロンプトエンコーダとマスクデコーダをU-Netスタイルのアーキテクチャで組み合わせ、潜伏したクロスアテンション、相対的な位置エンコーディング、正規化された注意、トレーニングのためのミューオンオプティマイザを使用する。
ENSAMは、限られたデータと計算予算の下で優れたパフォーマンスを達成するように設計されており、6時間で1つの32GB GPU上で、CT、MRI、PET、超音波、顕微鏡などの複数のモードから、5000巻未満のボリュームでスクラッチからトレーニングされている。
CVPR 2025 Foundation Models for Interactive 3D Biomedical Image Segmentation Challengeの一環として、ENSAMはマルチモーダルな3D医療画像を用いた隠れテストセットで評価され、DSC AUCは2.404、NSD AUCは2.266、最終DSCは0.627、最終SDは0.597となり、これまでに発表された2つのベースラインモデル(VISTA3D、SAM-Med3D)と3番目のマッチングモデル(SegVol)を上回り、最終的なDSCのパフォーマンスを上回り、他の3つの指標に後れを取っていた。
挑戦のコアセットトラックでは、ENSAMは総合10の5位にランクされ、事前訓練された重量を使用しないアプローチの中では最高である。
アブレーション研究により、相対的な位置エンコーディングとミューオンオプティマイザがそれぞれ収束を著しく高速化し、セグメンテーション品質を向上させることが確認された。
関連論文リスト
- A Hybrid Mamba-SAM Architecture for Efficient 3D Medical Image Segmentation [0.4358626952482685]
Mamba-SAMは、凍ったSAMエンコーダと、Mamba-based State Space Models (SSM)の線形時間効率と長距離モデリング機能を組み合わせた、新しくて効率的なハイブリッドアーキテクチャである。
本稿では,MFGC(Multi-Frequency Gated Convolution)を導入し,空間領域情報と周波数領域情報を3次元離散コサイン変換と適応ゲーティングにより共同解析することにより特徴表現を向上させる。
Dual-branch Mamba-SAM-Baseモデルでは、平均Diceスコアが0.906となり、UNet++ (0.907)に匹敵する。
論文 参考訳(メタデータ) (2026-01-31T10:51:17Z) - VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - MedSAM2: Segment Anything in 3D Medical Images and Videos [16.709180067792538]
本稿では,3次元画像と映像のセグメンテーションのための高速セグメンテーション基盤モデルであるMedSAM2を提案する。
このモデルは、Segment Anything Model 2を455,000以上の3Dイメージマスクペアと76,000フレームの大規模な医療データセットで微調整することによって開発されている。
さらに、我々は、大規模データセットの作成を容易にするために、5,000個のCT病変、3,984個の肝MRI病変、251,550個の心エコービデオフレームのアノテーションを含む、我々の知る限り、これまでで最も広範なユーザー調査を行った。
論文 参考訳(メタデータ) (2025-04-04T17:13:37Z) - Self-Prompt SAM: Medical Image Segmentation via Automatic Prompt SAM Adaptation [14.821036063099458]
Segment Anything Model (SAM)は印象的なゼロショット性能を示した。
本稿では,医療画像セグメンテーションのための新しいセルフプロンプトSAM適応フレームワーク,Self-Prompt-SAMを提案する。
本手法は,AMOS2022ではnUNetが2.3%,ACDCでは1.6%,Synapseデータセットでは0.5%に向上する。
論文 参考訳(メタデータ) (2025-02-02T02:42:24Z) - Swin-LiteMedSAM: A Lightweight Box-Based Segment Anything Model for Large-Scale Medical Image Datasets [0.6827423171182151]
我々はLiteMedSAMの新しい変種であるSwin-LiteMedSAMを紹介する。
このモデルは、小さなSwin Transformerをイメージエンコーダとして統合し、複数の種類のプロンプトを組み込み、イメージエンコーダとマスクデコーダの間のスキップ接続を確立する。
textitSegment Anything in Medical Images on Laptop Challenge (CVPR 2024)では,セグメンテーション性能と速度のバランスが良好である。
論文 参考訳(メタデータ) (2024-09-11T10:35:42Z) - Improved Baselines with Synchronized Encoding for Universal Medical Image Segmentation [34.08601740109437]
SyncSAMは、医用画像符号化を強化するために、畳み込みとトランスフォーマー機能を統合した同期デュアルブランチエンコーダを使用する。
SyncSAMはテストセットで最先端のパフォーマンスを実現し、目に見えないデータセットで強力なゼロショット機能を示す。
論文 参考訳(メタデータ) (2024-08-19T11:01:00Z) - Stitching, Fine-tuning, Re-training: A SAM-enabled Framework for Semi-supervised 3D Medical Image Segmentation [40.79197318484472]
SAMファインチューニングは, 医用画像のセグメンテーションにおいて, 完全に教師された方法で顕著な性能を示した。
SFR(Stitching, Fine-tuning, Re-training)という3段階のフレームワークを提案する。
我々のSFRフレームワークはプラグイン・アンド・プレイであり、様々な人気のある半教師付き手法と容易に互換性がある。
論文 参考訳(メタデータ) (2024-03-17T14:30:56Z) - Large-Vocabulary Segmentation for Medical Images with Text Prompts [68.9193694019039]
本稿では,SATと呼ばれるテキストプロンプトとして医療用語を駆使した3次元医用画像に任意のセグメンテーションを組み込むモデルを構築することを目的とする。
6502個の解剖学的用語を含む,ヒト解剖学上の最初のマルチモーダル知識ツリーを構築した。
トレーニング用の最大かつ最も包括的なセグメンテーションデータセットを構築し、72データセットから22K以上の3Dスキャンを収集します。
論文 参考訳(メタデータ) (2023-12-28T18:16:00Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Automatic size and pose homogenization with spatial transformer network
to improve and accelerate pediatric segmentation [51.916106055115755]
空間変換器ネットワーク(STN)を利用することにより、ポーズとスケール不変の新たなCNNアーキテクチャを提案する。
私たちのアーキテクチャは、トレーニング中に一緒に見積もられる3つのシーケンシャルモジュールで構成されています。
腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。
論文 参考訳(メタデータ) (2021-07-06T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。