論文の概要: CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation
- arxiv url: http://arxiv.org/abs/2506.23121v1
- Date: Sun, 29 Jun 2025 07:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.725995
- Title: CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation
- Title(参考訳): CRISP-SAM2: SAM2 : マルチオーガンセグメンテーションのためのクロスモーダルインタラクションとセマンティックプロンプト
- Authors: Xinlei Yu, Chanmiao Wang, Hui Jin, Ahmed Elazab, Gangyong Jia, Xiang Wan, Changqing Zou, Ruiquan Ge,
- Abstract要約: CRoss-modal Interaction と Semantic Prompting をベースとした CRISP-SAM2 という新しいモデルを提案する。
このモデルは、臓器のテキスト記述によって導かれる多臓器医療セグメンテーションへの有望なアプローチを示す。
- 参考スコア(独自算出の注目度): 32.48945636401865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-organ medical segmentation is a crucial component of medical image processing, essential for doctors to make accurate diagnoses and develop effective treatment plans. Despite significant progress in this field, current multi-organ segmentation models often suffer from inaccurate details, dependence on geometric prompts and loss of spatial information. Addressing these challenges, we introduce a novel model named CRISP-SAM2 with CRoss-modal Interaction and Semantic Prompting based on SAM2. This model represents a promising approach to multi-organ medical segmentation guided by textual descriptions of organs. Our method begins by converting visual and textual inputs into cross-modal contextualized semantics using a progressive cross-attention interaction mechanism. These semantics are then injected into the image encoder to enhance the detailed understanding of visual information. To eliminate reliance on geometric prompts, we use a semantic prompting strategy, replacing the original prompt encoder to sharpen the perception of challenging targets. In addition, a similarity-sorting self-updating strategy for memory and a mask-refining process is applied to further adapt to medical imaging and enhance localized details. Comparative experiments conducted on seven public datasets indicate that CRISP-SAM2 outperforms existing models. Extensive analysis also demonstrates the effectiveness of our method, thereby confirming its superior performance, especially in addressing the limitations mentioned earlier. Our code is available at: https://github.com/YU-deep/CRISP\_SAM2.git.
- Abstract(参考訳): マルチ組織医療セグメント化は医療画像処理の重要な要素であり、医師が正確な診断を行い、効果的な治療計画を開発するために不可欠である。
この分野では大きな進歩があったが、現在のマルチ組織セグメンテーションモデルは、しばしば不正確な詳細、幾何学的プロンプトへの依存、空間情報の喪失に悩まされる。
これらの課題に対処するために, CRoss-modal Interaction と Semantic Prompting をベースとした CRISP-SAM2 という新しいモデルを提案する。
このモデルは、臓器のテキスト記述によって導かれる多臓器医療セグメンテーションへの有望なアプローチを示す。
提案手法は,視覚的およびテキスト的入力を,プログレッシブなクロスアテンション相互作用機構を用いて,相互意味論的意味論に変換することから始める。
これらのセマンティクスは画像エンコーダに注入され、視覚情報の詳細な理解を深める。
幾何的プロンプトへの依存をなくすため,従来のプロンプトエンコーダを置き換えた意味的プロンプト戦略を用いる。
さらに, 医用画像に適応し, 局所的詳細性を高めるために, メモリとマスク精製の類似性ソート自己更新戦略を適用した。
7つの公開データセットで実施された比較実験は、CRISP-SAM2が既存のモデルより優れていることを示している。
また,本手法の有効性を概説し,特に前述した限界に対処する上で,その優れた性能を確認した。
私たちのコードは、https://github.com/YU-deep/CRISP\_SAM2.gitで利用可能です。
関連論文リスト
- MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models [48.24824129683951]
本稿では,複雑で暗黙的な医療指導に基づくセグメンテーションマスク作成を目的とした新しい課題である医用画像推論セグメンテーションを紹介する。
そこで本稿では,MLLMの推論能力を利用して臨床問題を理解するエンドツーエンドフレームワークであるMedSeg-Rを提案する。
1)画像の解釈と複雑な医用命令の理解を行い,マルチモーダルな中間トークンを生成するグローバルコンテキスト理解モジュール,2)これらのトークンをデコードして正確なセグメンテーションマスクを生成するピクセルレベルのグラウンドモジュールである。
論文 参考訳(メタデータ) (2025-06-12T08:13:38Z) - Organ-aware Multi-scale Medical Image Segmentation Using Text Prompt Engineering [17.273290949721975]
既存の医用画像分割法は、画像やビデオなどの一様視覚入力に依存しており、労働集約的な手動アノテーションを必要とする。
医用イメージング技術は、単一のスキャン内で複数の絡み合った臓器をキャプチャし、セグメンテーションの精度をさらに複雑にする。
これらの課題に対処するため、MedSAMは画像特徴とユーザが提供するプロンプトを統合することでセグメンテーションの精度を高めるために開発された。
論文 参考訳(メタデータ) (2025-03-18T01:35:34Z) - Enhanced MRI Representation via Cross-series Masking [48.09478307927716]
自己教師型でMRI表現を効果的に学習するためのクロスシリーズ・マスキング(CSM)戦略
メソッドは、パブリックデータセットと社内データセットの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-10T10:32:09Z) - MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation [2.2585213273821716]
MedCLIP-SAMv2はCLIPとSAMモデルを統合して臨床スキャンのセグメンテーションを行う新しいフレームワークである。
提案手法は,DHN-NCE(Decoupled Hard Negative Noise Contrastive Estimation)によるBiomedCLIPモデルの微調整を含む。
また,ゼロショットセグメンテーションラベルを弱教師付きパラダイム内で使用することにより,セグメンテーション品質をさらに向上する。
論文 参考訳(メタデータ) (2024-09-28T23:10:37Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Self-Supervised Correction Learning for Semi-Supervised Biomedical Image
Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。
共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。
異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-01-12T08:19:46Z) - Towards Cross-modality Medical Image Segmentation with Online Mutual
Knowledge Distillation [71.89867233426597]
本稿では,あるモダリティから学習した事前知識を活用し,別のモダリティにおけるセグメンテーション性能を向上させることを目的とする。
モーダル共有知識を徹底的に活用する新しい相互知識蒸留法を提案する。
MMWHS 2017, MMWHS 2017 を用いた多クラス心筋セグメンテーション実験の結果, CT セグメンテーションに大きな改善が得られた。
論文 参考訳(メタデータ) (2020-10-04T10:25:13Z) - DONet: Dual Objective Networks for Skin Lesion Segmentation [77.9806410198298]
本稿では,皮膚病変のセグメンテーションを改善するために,Dual Objective Networks (DONet) という,シンプルで効果的なフレームワークを提案する。
我々のDONetは2つの対称デコーダを採用し、異なる目標に近づくための異なる予測を生成する。
皮膚内視鏡画像における多種多様な病変のスケールと形状の課題に対処するために,再帰的コンテキスト符号化モジュール(RCEM)を提案する。
論文 参考訳(メタデータ) (2020-08-19T06:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。