論文の概要: ESICA: A Scalable Framework for Text-Guided 3D Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2604.24876v1
- Date: Mon, 27 Apr 2026 18:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.536848
- Title: ESICA: A Scalable Framework for Text-Guided 3D Medical Image Segmentation
- Title(参考訳): ESICA: テキストガイドによる医用画像分割のためのスケーラブルなフレームワーク
- Authors: Yu Xin, Gorkem Can Ates, Jun Ma, Sumin Kim, Ying Zhang, Kaleb E Smith, Kuang Gong, Wei Shao,
- Abstract要約: テキストガイド3D画像分割は、クラスベースおよび空間的プロンプトベースモデルの柔軟な代替手段を提供する。
既存のテキストガイドフレームワークは、しばしば計算コストが高く、弱いテキストボリュームの特徴的アライメントを示し、微妙な解剖学的詳細を捉えることができない。
3つのイノベーションを通じてこれらの課題に対処する軽量でスケーラブルなフレームワークであるESICAを提案する。
- 参考スコア(独自算出の注目度): 14.190653103688883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text guided 3D medical image segmentation offers a flexible alternative to class based and spatial prompt based models by allowing users to specify regions of interest directly in natural language. This paradigm avoids reliance on predefined label sets, reduces ambiguous outputs, and aligns more naturally with clinical workflows. However, existing text guided frameworks are often computationally expensive, exhibit weak text volume feature alignment, and fail to capture fine anatomical details. We propose ESICA, a lightweight and scalable framework that addresses these challenges through three innovations: (1) a similarity matrix based mask prediction formulation that enhances semantic alignment, (2) an efficient decomposed decoder with adapter modules for accurate volumetric decoding, and (3) a two pass refinement strategy that sharpens boundaries and resolves uncertain regions. To improve training stability and generalization, ESICA adopts a two stage scheme consisting of positive only pretraining followed by balanced fine tuning. On the CVPR BiomedSegFM benchmark spanning five imaging modalities (CT, MRI, PET, ultrasound, and microscopy), ESICA achieves state of the art segmentation accuracy, while the compact ESICA4 Lite variant attains similar segmentation performance with substantially fewer parameters, yielding a superior efficiency accuracy trade off. Our framework advances text guided segmentation toward efficient, scalable, and clinically deployable systems. Code will be made publicly available at https://github.com/mirthAI/ESICA.
- Abstract(参考訳): テキストガイド付3次元医用画像分割は、自然言語に直接関心のある領域を指定できるようにすることで、クラスベースおよび空間的プロンプトベースモデルの柔軟な代替手段を提供する。
このパラダイムは、事前に定義されたラベルセットへの依存を避け、あいまいなアウトプットを減らし、臨床ワークフローとより自然に整合する。
しかし、既存のテキストガイドフレームワークは、しばしば計算コストが高く、弱いテキストボリュームの特徴的アライメントを示し、微妙な解剖学的詳細を捉えることができない。
1)類似度行列に基づくマス予測の定式化によりセマンティックアライメントを向上し,(2)適応モジュールを組み込んだ効率的なデコーダ,(3)境界を鋭くし,不確実な領域を解消する2つのパス改善戦略を提案する。
トレーニングの安定性と一般化を改善するため、ESICAは正の事前学習とバランスの取れた微調整からなる2段階のスキームを採用している。
CVPR BiomedSegFMベンチマーク(CT、MRI、PET、超音波、顕微鏡)では、ESICAは最先端のセグメンテーション精度を達成し、コンパクトなESICA4 Liteは、ほぼ少ないパラメータで同様のセグメンテーション性能を達成し、良好な効率のトレードオフをもたらす。
我々のフレームワークは、効率的な、スケーラブルで、臨床的にデプロイ可能なシステムに向けて、テキストガイドによるセグメンテーションを進めています。
コードはhttps://github.com/mirthAI/ESICAで公開される。
関連論文リスト
- Align then Refine: Text-Guided 3D Prostate Lesion Segmentation [5.284052813431228]
体積法は、解剖学的整合性を確保しながら複数のモードを組み合わせる必要がある。
現在のモデルは、クロスモーダル情報を確実に統合するのに苦労している。
3つの重要なイノベーションを取り入れた新しいマルチエンコーダU-Netアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-04-20T18:13:52Z) - MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - SwinTF3D: A Lightweight Multimodal Fusion Approach for Text-Guided 3D Medical Image Segmentation [0.30586855806896035]
テキスト誘導型3次元医用画像分割のための視覚的・言語的表現を統一する軽量多モード融合手法であるSwinTF3Dを提案する。
SwinTF3Dは、コンパクトなアーキテクチャにもかかわらず、複数の臓器で競合するDiceとIoUのスコアを達成している。
論文 参考訳(メタデータ) (2025-12-28T11:00:05Z) - TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - SwIPE: Efficient and Robust Medical Image Segmentation with Implicit Patch Embeddings [12.79344668998054]
正確な局所境界線とグローバルな形状コヒーレンスを実現するために,SwIPE(Segmentation with Implicit Patch Embeddings)を提案する。
その結果,最近の暗黙的アプローチよりもSwIPEは大幅に改善され,パラメータが10倍以上の最先端の離散手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-23T20:55:11Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - Weakly-supervised Learning For Catheter Segmentation in 3D Frustum
Ultrasound [74.22397862400177]
超音波を用いた新しいカテーテルセグメンテーション法を提案する。
提案手法は,1ボリュームあたり0.25秒の効率で最先端の性能を実現した。
論文 参考訳(メタデータ) (2020-10-19T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。