論文の概要: Self-Prompting Large Vision Models for Few-Shot Medical Image
Segmentation
- arxiv url: http://arxiv.org/abs/2308.07624v1
- Date: Tue, 15 Aug 2023 08:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:41:27.131100
- Title: Self-Prompting Large Vision Models for Few-Shot Medical Image
Segmentation
- Title(参考訳): 短距離医用画像分割のための自己プロンピング大ビジョンモデル
- Authors: Qi Wu, Yuyao Zhang, Marawan Elbatel
- Abstract要約: 本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。
我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。
複数のデータセットで競合する結果を得る。
- 参考スコア(独自算出の注目度): 14.135249795318591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large foundation models have shown promising potential
in the medical industry due to their flexible prompting capability. One such
model, the Segment Anything Model (SAM), a prompt-driven segmentation model,
has shown remarkable performance improvements, surpassing state-of-the-art
approaches in medical image segmentation. However, existing methods primarily
rely on tuning strategies that require extensive data or prior prompts tailored
to the specific task, making it particularly challenging when only a limited
number of data samples are available. In this paper, we propose a novel
perspective on self-prompting in medical vision applications. Specifically, we
harness the embedding space of SAM to prompt itself through a simple yet
effective linear pixel-wise classifier. By preserving the encoding capabilities
of the large model, the contextual information from its decoder, and leveraging
its interactive promptability, we achieve competitive results on multiple
datasets (i.e. improvement of more than 15% compared to fine-tuning the mask
decoder using a few images).
- Abstract(参考訳): 大規模基盤モデルの最近の進歩は、フレキシブル・プロンプト能力によって医療産業に有望な可能性を示している。
そのようなモデルの一つであるSAM(Segment Anything Model)は、医療画像セグメンテーションにおける最先端のアプローチを超越して、顕著な性能向上を示した。
しかし、既存のメソッドは主に、広範囲のデータや特定のタスクに合わせた事前プロンプトを必要とするチューニング戦略に依存しており、限られた数のデータサンプルしか利用できない場合、特に困難である。
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。
具体的には、SAM の埋め込み空間を利用して、単純で効果的な線形画素ワイド分類器を通して自身を誘導する。
大規模モデルの符号化能力と文脈情報をデコーダから保存し、そのインタラクティブなプロンサ性を活用することで、複数のデータセット(例えば、数枚の画像を用いたマスクデコーダの微調整と比較して15%以上の改善)で競合的な結果が得られる。
関連論文リスト
- DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルで効果的なアプローチであるDEEMを提案する。
DEEMは、訓練可能なパラメータを少なくし、事前訓練データが少なく、ベースモデルのサイズを小さくし、幻覚を緩和するための強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Rethinking Interactive Image Segmentation with Low Latency, High Quality, and Diverse Prompts [68.86537322287474]
多様なプロンプトを持つ低レイテンシで高品質な対話的セグメンテーションは、スペシャリストやジェネラリストモデルでは難しい。
我々は、低レイテンシ、高品質、多様なプロンプトサポートを提供する次世代インタラクティブセグメンテーションアプローチであるSegNextを提案する。
本手法は,HQSeg-44KとDAVISにおいて,定量的かつ定性的に,最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-03-31T17:02:24Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - VISION-MAE: A Foundation Model for Medical Image Segmentation and
Classification [36.8105960525233]
医用画像に特化して設計された新しい基礎モデルVISION-MAEを提案する。
VISION-MAEは、様々なモダリティから250万枚の未ラベル画像のデータセットでトレーニングされている。
その後、明示的なラベルを使って分類とセグメンテーションのタスクに適応する。
論文 参考訳(メタデータ) (2024-02-01T21:45:12Z) - Segment Anything Model for Medical Image Segmentation: Current
Applications and Future Directions [8.216028136706948]
最近のSAM(Segment Anything Model)の導入は、プロンプト駆動パラダイムのイメージセグメンテーション領域への注目すべき拡張を意味している。
本稿では,SAMの有効性を医療画像分割タスクに拡張するための最近の取り組みについて概観する。
医療画像セグメンテーションにおけるSAMの役割について,今後の研究の道筋を探る。
論文 参考訳(メタデータ) (2024-01-07T14:25:42Z) - TransMed: Large Language Models Enhance Vision Transformer for
Biomedical Image Classification [11.202967500669402]
ごく少数のサンプルでモデルをタスクに適応させるために、いくつかのショットラーニングが研究されている。
大規模言語モデル(LLM)を用いてラベルを文脈化する新しい手法を提案する。
以上の結果から,LLMが生成するコンテキストは,類似のカテゴリに対する意味埋め込みの識別を著しく向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-12T09:58:07Z) - Task-driven Prompt Evolution for Foundation Models [0.8192907805418581]
SAM(SAMPOT)のような基礎モデルのためのプラグアンドプレイ型プロンプト最適化手法を提案する。
胸部X線像における肺分画に対するSAMPOTの有用性について検討した。
論文 参考訳(メタデータ) (2023-10-26T04:08:07Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - SAM on Medical Images: A Comprehensive Study on Three Prompt Modes [12.42280534113305]
Segment Anything Model(SAM)が最近デビューし、多くの研究者がゼロショットの一般化能力の観点からその可能性と限界を探究した。
本稿では,SAMが医用画像分割タスクの基礎モデルになる可能性について評価する。
また、異なるモダリティを持つ最高のゼロショットパフォーマンスに、どのようなプロンプトが導くかについても検討する。
論文 参考訳(メタデータ) (2023-04-28T18:18:07Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。