論文の概要: Prompt-Tuning SAM: From Generalist to Specialist with only 2048 Parameters and 16 Training Images
- arxiv url: http://arxiv.org/abs/2504.16739v1
- Date: Wed, 23 Apr 2025 14:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:01:20.926181
- Title: Prompt-Tuning SAM: From Generalist to Specialist with only 2048 Parameters and 16 Training Images
- Title(参考訳): Prompt-Tuning SAM:2048パラメータと16のトレーニング画像のみを持つジェネリストからスペシャリストへ
- Authors: Tristan Piater, Björn Barz, Alexander Freytag,
- Abstract要約: PTSAM法はパラメータ効率の良い微調整技術であるプロンプトチューニングを用いて,特定のタスクにSAMを適用する。
以上の結果から,SAMのマスクデコーダのみのプロンプトチューニングが,最先端技術と同等の性能を実現することが示唆された。
- 参考スコア(独自算出の注目度): 48.76247995109632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM) is widely used for segmenting a diverse range of objects in natural images from simple user prompts like points or bounding boxes. However, SAM's performance decreases substantially when applied to non-natural domains like microscopic imaging. Furthermore, due to SAM's interactive design, it requires a precise prompt for each image and object, which is unfeasible in many automated biomedical applications. Previous solutions adapt SAM by training millions of parameters via fine-tuning large parts of the model or of adapter layers. In contrast, we show that as little as 2,048 additional parameters are sufficient for turning SAM into a use-case specialist for a certain downstream task. Our novel PTSAM (prompt-tuned SAM) method uses prompt-tuning, a parameter-efficient fine-tuning technique, to adapt SAM for a specific task. We validate the performance of our approach on multiple microscopic and one medical dataset. Our results show that prompt-tuning only SAM's mask decoder already leads to a performance on-par with state-of-the-art techniques while requiring roughly 2,000x less trainable parameters. For addressing domain gaps, we find that additionally prompt-tuning SAM's image encoder is beneficial, further improving segmentation accuracy by up to 18% over state-of-the-art results. Since PTSAM can be reliably trained with as little as 16 annotated images, we find it particularly helpful for applications with limited training data and domain shifts.
- Abstract(参考訳): Segment Anything Model (SAM) は、点やバウンディングボックスのような単純なユーザープロンプトから自然画像に様々なオブジェクトを分割するために広く使われている。
しかし、SAMの性能は顕微鏡画像のような非自然領域に適用すると大幅に低下する。
さらに、SAMのインタラクティブな設計のため、画像とオブジェクトごとに正確なプロンプトが必要であるが、多くの自動化バイオメディカルアプリケーションでは実現不可能である。
以前のソリューションでは、モデルの大部分やアダプタ層を微調整することで、数百万のパラメータをトレーニングすることでSAMを適応させていました。
対照的に、SAMを特定の下流タスクのユースケーススペシャリストにするのに、さらに2,048のパラメータが十分であることを示す。
提案手法は,パラメータ効率のよい微調整手法であるプロンプトチューニングを用いて,特定のタスクにSAMを適用する。
我々は,複数の顕微鏡と1つの医療データセットを用いたアプローチの有効性を検証した。
以上の結果から,SAMのマスクデコーダのみのプロンプトチューニングが,約2000倍のトレーニングパラメータを必要としながら,最先端技術と同等の性能を実現することが示唆された。
ドメインギャップに対処するためには,SAMのイメージエンコーダの高速化が有用であり,最先端の結果に対して最大18%のセグメンテーション精度の向上が期待できる。
PTSAMは16の注釈付き画像で確実にトレーニングできるため、限られたトレーニングデータとドメインシフトを持つアプリケーションでは特に有用である。
関連論文リスト
- Generalized SAM: Efficient Fine-Tuning of SAM for Variable Input Image Sizes [3.8506666685467343]
本稿では,Segment Anything Model (SAM) の入力画像サイズを可変化するための,効率的な微調整手法を提案する。
一般化SAM(GSAM)は、SAMを用いたトレーニング中にランダムトリミングを初めて適用し、トレーニングの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-08-22T13:58:08Z) - S-SAM: SVD-based Fine-Tuning of Segment Anything Model for Medical Image Segmentation [25.12190845061075]
我々はS-SAMと呼ばれる適応手法を提案し、SAMのパラメータの0.4%に相当するパラメータのみを訓練すると同時に、単にラベル名を正確なマスクを生成するためのプロンプトとして利用する。
内視鏡像,X線像,超音波像,CT像,組織像の5つの異なるモードで評価した。
論文 参考訳(メタデータ) (2024-08-12T18:53:03Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - AdaptiveSAM: Towards Efficient Tuning of SAM for Surgical Scene
Segmentation [49.59991322513561]
本稿では,新しいデータセットに迅速かつ効率的に適応できるSegment-Anything(SAM)の適応的な修正を提案する。
AdaptiveSAMは、フリーフォームテキストをプロンプトとして使用し、ラベル名のみをプロンプトとして、興味のあるオブジェクトをセグメント化することができる。
実験の結果,AdaptiveSAMは様々な医用画像データセットの最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-07T17:12:54Z) - When SAM Meets Sonar Images [6.902760999492406]
Segment Anything Model (SAM)はセグメンテーションのやり方に革命をもたらした。
SAMのパフォーマンスは、自然画像とは異なる領域を含むタスクに適用されると低下する可能性がある。
SAMは微調整技術を用いて、医学や惑星科学のような特定の領域で有望な能力を示す。
論文 参考訳(メタデータ) (2023-06-25T03:15:14Z) - How to Efficiently Adapt Large Segmentation Model(SAM) to Medical Images [15.181219203629643]
Segment Anything (SAM)は、自然画像のゼロショットセグメンテーションにおいて印象的な機能を示す。
しかし、医療画像に適用すると、SAMは顕著なパフォーマンス低下に悩まされる。
本研究では,SAMエンコーダを凍結し,軽量なタスク固有予測ヘッドを微調整することを提案する。
論文 参考訳(メタデータ) (2023-06-23T18:34:30Z) - AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt
Encoder [101.28268762305916]
この作業では、Segment Anything Modelを同じ入力イメージで動作するエンコーダに置き換える。
複数の医用画像とビデオのベンチマークで最先端の結果を得る。
内部の知識を検査し、軽量なセグメンテーションソリューションを提供するために、浅いデコンボリューションネットワークによってマスクに復号化することを学ぶ。
論文 参考訳(メタデータ) (2023-06-10T07:27:00Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - Medical SAM Adapter: Adapting Segment Anything Model for Medical Image
Segmentation [51.770805270588625]
Segment Anything Model (SAM)は画像セグメンテーションの分野で最近人気を集めている。
近年の研究では、SAMは医用画像のセグメンテーションにおいて過小評価されている。
ドメイン固有の医療知識をセグメンテーションモデルに組み込んだ医療SAMアダプタ(Med-SA)を提案する。
論文 参考訳(メタデータ) (2023-04-25T07:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。