論文の概要: Unifying Segment Anything in Microscopy with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2505.10769v1
- Date: Fri, 16 May 2025 00:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.77948
- Title: Unifying Segment Anything in Microscopy with Multimodal Large Language Model
- Title(参考訳): マルチモーダル大言語モデルを用いた顕微鏡におけるセグメントの統一
- Authors: Manyu Li, Ruian He, Zixian Zhang, Weimin Tan, Bo Yan,
- Abstract要約: 我々は、顕微鏡クローズドメインデータの学習にMLLMを用いて、uLLSAMと呼ばれる顕微鏡内のセグメンテーションをガイドすることを提案する。
SAMがグローバルなVLKプロンプトを受信すると、その性能は大幅に向上するが、境界輪郭知覚には欠点がある。
本手法は,9つのドメイン内顕微鏡データセットに対して,Diceの7.71%,SAの12.10%の性能向上を実現し,最先端の性能を実現している。
- 参考スコア(独自算出の注目度): 12.40922797263136
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate segmentation of regions of interest in biomedical images holds substantial value in image analysis. Although several foundation models for biomedical segmentation have currently achieved excellent performance on certain datasets, they typically demonstrate sub-optimal performance on unseen domain data. We owe the deficiency to lack of vision-language knowledge before segmentation. Multimodal Large Language Models (MLLMs) bring outstanding understanding and reasoning capabilities to multimodal tasks, which inspires us to leverage MLLMs to inject Vision-Language Knowledge (VLK), thereby enabling vision models to demonstrate superior generalization capabilities on cross-domain datasets. In this paper, we propose using MLLMs to guide SAM in learning microscopy crose-domain data, unifying Segment Anything in Microscopy, named uLLSAM. Specifically, we propose the Vision-Language Semantic Alignment (VLSA) module, which injects VLK into Segment Anything Model (SAM). We find that after SAM receives global VLK prompts, its performance improves significantly, but there are deficiencies in boundary contour perception. Therefore, we further propose Semantic Boundary Regularization (SBR) to prompt SAM. Our method achieves performance improvements of 7.71% in Dice and 12.10% in SA across 9 in-domain microscopy datasets, achieving state-of-the-art performance. Our method also demonstrates improvements of 6.79% in Dice and 10.08% in SA across 10 out-ofdomain datasets, exhibiting strong generalization capabilities. Code is available at https://github.com/ieellee/uLLSAM.
- Abstract(参考訳): バイオメディカル画像に対する関心領域の正確なセグメンテーションは、画像解析においてかなりの価値を持っている。
バイオメディカルセグメンテーションの基礎モデルは、現在、特定のデータセットで優れたパフォーマンスを達成しているが、一般的には、目に見えないドメインデータ上での準最適性能を示す。
我々はその欠如は、セグメンテーション前の視覚言語知識の欠如にある。
マルチモーダル言語モデル(Multimodal Large Language Models, MLLM)は、多モーダルタスクに優れた理解と推論能力をもたらす。
本稿では,顕微鏡クローズドメインデータの学習におけるSAMのガイドとしてMLLMを用いて,顕微鏡におけるセグメンテーションを統一したuLLSAMを提案する。
具体的には、VLKをSegment Anything Model(SAM)に注入するVLSA(Vision-Language Semantic Alignment)モジュールを提案する。
SAMがグローバルなVLKプロンプトを受信すると、その性能は大幅に向上するが、境界輪郭知覚には欠点がある。
そこで我々はさらに,SAM を誘導する意味境界正規化 (SBR) を提案する。
本手法は,9つのドメイン内顕微鏡データセットに対して,Diceの7.71%,SAの12.10%の性能向上を実現し,最先端の性能を実現している。
また,Diceでは6.79%,SAでは10.08%,ドメイン外データセットでは10.08%の改善を行い,強力な一般化能力を示した。
コードはhttps://github.com/ieellee/uLLSAMで入手できる。
関連論文リスト
- Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - SAM-I-Am: Semantic Boosting for Zero-shot Atomic-Scale Electron Micrograph Segmentation [4.967064378914305]
最先端の基盤モデルは、ドメインによって無意味で誤った結果を生成することができる。
微調整と再訓練は特定の領域では不可能である。
セマンティック・ブースティング(セマンティック・ブースティング)を提案する: ゼロショット基礎モデルが与えられた場合、セマンティック・セグメンテーションをガイドし、ドメインの期待に合うように結果を調整する。
我々は、(絶対)+21.35%、+12.6%、+5.27%の平均IoU、-9.91%、-18.42%、-4.06%のゼロショット性能向上を示す。
論文 参考訳(メタデータ) (2024-04-09T22:17:20Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Segment Anything Model for Medical Image Analysis: an Experimental Study [19.95972201734614]
Segment Anything Model (SAM) は、ユーザ定義オブジェクトをインタラクティブな方法でセグメント化する基礎モデルである。
SAMの医用画像の分類能力について,各種のモダリティと解剖から,19の医用画像データセットの集合体を用いて評価した。
論文 参考訳(メタデータ) (2023-04-20T17:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。