論文の概要: TV-SAM: Increasing Zero-Shot Segmentation Performance on Multimodal Medical Images Using GPT-4 Generated Descriptive Prompts Without Human Annotation
- arxiv url: http://arxiv.org/abs/2402.15759v2
- Date: Mon, 14 Oct 2024 14:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:22.345743
- Title: TV-SAM: Increasing Zero-Shot Segmentation Performance on Multimodal Medical Images Using GPT-4 Generated Descriptive Prompts Without Human Annotation
- Title(参考訳): TV-SAM:GPT-4生成記述プロンプトによるマルチモーダル医用画像のゼロショットセグメンテーション性能の向上
- Authors: Zekun Jiang, Dongjie Cheng, Ziyuan Qin, Jun Gao, Qicheng Lao, Abdullaev Bakhrom Ismoilovich, Urazboev Gayrat, Yuldashov Elyorbek, Bekchanov Habibullo, Defu Tang, LinJing Wei, Kang Li, Le Zhang,
- Abstract要約: 本研究は,手動のアノテーションを使わずに,テキスト・ビジュアル・プロンプト・セグメンテーション・モデル (TV-SAM) と呼ばれる,新しいマルチモーダルな医用画像ゼロショット・セグメンテーションアルゴリズムを提案する。
TV-SAMは、大規模言語モデルGPT-4、ビジョン言語モデルGLIP、SAMを統合して、医療画像から記述テキストプロンプトと視覚的バウンディングボックスプロンプトを自律的に生成する。
- 参考スコア(独自算出の注目度): 9.776658464953476
- License:
- Abstract: This study presents a novel multimodal medical image zero-shot segmentation algorithm named the text-visual-prompt segment anything model (TV-SAM) without any manual annotations. The TV-SAM incorporates and integrates the large language model GPT-4, the vision language model GLIP, and the SAM to autonomously generate descriptive text prompts and visual bounding box prompts from medical images, thereby enhancing the SAM's capability for zero-shot segmentation. Comprehensive evaluations are implemented on seven public datasets encompassing eight imaging modalities to demonstrate that TV-SAM can effectively segment unseen targets across various modalities without additional training. TV-SAM significantly outperforms SAM AUTO and GSAM, closely matching the performance of SAM BBOX with gold standard bounding box prompts and surpasses the state-of-the-art methods on specific datasets such as ISIC and WBC. The study indicates that TV-SAM serves as an effective multimodal medical image zero-shot segmentation algorithm, highlighting the significant contribution of GPT-4 to zero-shot segmentation. By integrating foundational models such as GPT-4, GLIP, and SAM, the ability to address complex problems in specialized domains can be enhanced.
- Abstract(参考訳): 本研究は,手動のアノテーションを使わずに,テキスト・ビジュアル・プロンプト・セグメンテーション・モデル(TV-SAM)と呼ばれる,新しいマルチモーダルな医用画像ゼロショットセグメンテーションアルゴリズムを提案する。
TV-SAMは、大きな言語モデルGPT-4、ビジョン言語モデルGLIP、SAMを統合し、医療画像から記述テキストプロンプトと視覚境界ボックスプロンプトを自律的に生成し、SAMのゼロショットセグメンテーション能力を高める。
総合的な評価は、8つの画像モダリティを含む7つのパブリックデータセット上で実施され、TV-SAMは、追加の訓練をすることなく、様々なモダリティにわたって事実上見えないターゲットを分割できることを示す。
TV-SAM は SAM AUTO と GSAM を大きく上回り、SAM BBOX とゴールド標準バウンディングボックスプロンプトを密に一致させ、ISIC や WBC のような特定のデータセットの最先端の手法を超越している。
本研究は,TV-SAMが効果的なマルチモーダル医用画像ゼロショットセグメンテーションアルゴリズムとして機能し,GPT-4がゼロショットセグメンテーションに寄与していることを明らかにする。
GPT-4、GLIP、SAMといった基礎モデルを統合することで、専門領域における複雑な問題に対処する能力を向上させることができる。
関連論文リスト
- CC-SAM: SAM with Cross-feature Attention and Context for Ultrasound Image Segmentation [20.448864959103858]
Segment Anything Model (SAM) は、自然画像のセグメンテーションの領域で顕著な成功を収めた。
SAMは、低コントラスト、かすかな境界、複雑な形態、そして小さなサイズの物体を特徴とする医療画像に苦しむ。
医療領域におけるSAMの性能を高めるために,包括的修正を導入する。
論文 参考訳(メタデータ) (2024-07-31T22:24:05Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - Test-Time Adaptation with SaLIP: A Cascade of SAM and CLIP for Zero shot Medical Image Segmentation [10.444726122035133]
臓器分割のための単純な統合フレームワークSaLIPを提案する。
SAMは画像内の部分ベースのセグメンテーションに使用され、CLIPは関心領域に対応するマスクを検索する。
最後に、SAMは検索されたROIによって特定の臓器を分節するように促される。
論文 参考訳(メタデータ) (2024-04-09T14:56:34Z) - VRP-SAM: SAM with Visual Reference Prompt [73.05676082695459]
そこで我々は,Segment Anything Model (SAM) を利用した新しいVisual Reference Prompt (VRP) エンコーダを提案する。
本質的には、VRP-SAMは注釈付き参照画像を使用して特定のオブジェクトを理解し、ターゲット画像内の特定のオブジェクトのセグメンテーションを実行することができる。
論文 参考訳(メタデータ) (2024-02-27T17:58:09Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.42565443181017]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Comprehensive Multimodal Segmentation in Medical Imaging: Combining
YOLOv8 with SAM and HQ-SAM Models [0.24578723416255752]
提案手法は, YOLOv8モデルを用いて, モダリティ間の近似境界ボックス検出を行う。
境界ボックスを生成するために、YOLOv8モデルは、各モードから100の画像とマスクの限られたセットを使用して訓練された。
YOLOv8, YOLOv8+SAM, YOLOv8+HQ-SAMモデルの個人および複合性能を評価するために比較分析を行った。
論文 参考訳(メタデータ) (2023-10-04T20:30:49Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - Segment Anything Model for Medical Images? [38.44750512574108]
Segment Anything Model (SAM) は一般画像分割のための最初の基礎モデルである。
我々は18のモダリティ、84のオブジェクト、125のオブジェクトとモダリティのペアターゲット、1050Kの2Dイメージ、6033Kマスクを備えた大規模な医療セグメンテーションデータセットを構築した。
SAMはいくつかの特定のオブジェクトで顕著なパフォーマンスを示したが、不安定、不完全、あるいは他の状況で完全に失敗した。
論文 参考訳(メタデータ) (2023-04-28T07:23:31Z) - Medical SAM Adapter: Adapting Segment Anything Model for Medical Image
Segmentation [51.770805270588625]
Segment Anything Model (SAM)は画像セグメンテーションの分野で最近人気を集めている。
近年の研究では、SAMは医用画像のセグメンテーションにおいて過小評価されている。
ドメイン固有の医療知識をセグメンテーションモデルに組み込んだ医療SAMアダプタ(Med-SA)を提案する。
論文 参考訳(メタデータ) (2023-04-25T07:34:22Z) - Segment Anything Model for Medical Image Analysis: an Experimental Study [19.95972201734614]
Segment Anything Model (SAM) は、ユーザ定義オブジェクトをインタラクティブな方法でセグメント化する基礎モデルである。
SAMの医用画像の分類能力について,各種のモダリティと解剖から,19の医用画像データセットの集合体を用いて評価した。
論文 参考訳(メタデータ) (2023-04-20T17:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。