論文の概要: BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning
of SAM
- arxiv url: http://arxiv.org/abs/2402.16338v1
- Date: Mon, 26 Feb 2024 06:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:23:44.476886
- Title: BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning
of SAM
- Title(参考訳): BLO-SAM: SAMのオーバーフィッティングによる最適化
- Authors: Li Zhang, Youwei Liang, Pengtao Xie
- Abstract要約: BLO-SAMを導入し、二段階最適化(BLO)に基づいてSAM(Segment Anything Model)を微調整する。
BLO-SAMは、モデルの重みパラメータのトレーニングと、トレーニングデータセットの2つの別々のサブセットへの迅速な埋め込みによって、過適合のリスクを低減する。
その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 28.561460204622094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Segment Anything Model (SAM), a foundation model pretrained on millions
of images and segmentation masks, has significantly advanced semantic
segmentation, a fundamental task in computer vision. Despite its strengths, SAM
encounters two major challenges. Firstly, it struggles with segmenting specific
objects autonomously, as it relies on users to manually input prompts like
points or bounding boxes to identify targeted objects. Secondly, SAM faces
challenges in excelling at specific downstream tasks, like medical imaging, due
to a disparity between the distribution of its pretraining data, which
predominantly consists of general-domain images, and the data used in
downstream tasks. Current solutions to these problems, which involve finetuning
SAM, often lead to overfitting, a notable issue in scenarios with very limited
data, like in medical imaging. To overcome these limitations, we introduce
BLO-SAM, which finetunes SAM based on bi-level optimization (BLO). Our approach
allows for automatic image segmentation without the need for manual prompts, by
optimizing a learnable prompt embedding. Furthermore, it significantly reduces
the risk of overfitting by training the model's weight parameters and the
prompt embedding on two separate subsets of the training dataset, each at a
different level of optimization. We apply BLO-SAM to diverse semantic
segmentation tasks in general and medical domains. The results demonstrate
BLO-SAM's superior performance over various state-of-the-art image semantic
segmentation methods.
- Abstract(参考訳): 数百万の画像とセグメンテーションマスクに事前訓練された基礎モデルであるSegment Anything Model (SAM)は、コンピュータビジョンの基本的なタスクであるセグメンテーションを著しく進歩させた。
その強みにもかかわらず、SAMは2つの大きな課題に直面している。
まず、特定のオブジェクトを自律的にセグメント化するのに苦労する。それは、ユーザーが手動でポイントやバウンディングボックスなどのプロンプトを入力して対象オブジェクトを識別するからだ。
第二に、samは、一般的にドメインイメージで構成されるプリトレーニングデータの分布と、ダウンストリームタスクで使用されるデータとの差があるため、医療画像などの特定の下流タスクに優れているという課題に直面している。
SAMを微調整するこれらの問題に対する現在の解決策は、しばしば過度に適合し、医療画像のような非常に限られたデータを持つシナリオにおいて顕著な問題となる。
これらの制限を克服するため,二段階最適化(BLO)に基づいてSAMを微調整するBLO-SAMを導入する。
提案手法では,手動のプロンプトを必要とせず,学習可能なプロンプト埋め込みを最適化することにより,自動画像セグメンテーションを可能にする。
さらに、モデルの重みパラメータをトレーニングし、トレーニングデータセットの2つの別々のサブセットにプロンプトを埋め込むことで、オーバーフィッティングのリスクを大幅に低減する。
BLO-SAMを一般分野および医療分野における多様なセマンティックセグメンテーションタスクに適用する。
その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation [5.376142948115328]
本稿では,ZSASのためのCLIPおよびSAM協調フレームワークであるClipSAMを提案する。
ClipSAMの背後にある洞察は、CLIPのセマンティック理解機能を、異常なローカライゼーションと粗いセグメンテーションに活用することである。
本稿では,視覚的特徴と対話するためのUMCI(Unified Multi-scale Cross-modal Interaction)モジュールについて述べる。
論文 参考訳(メタデータ) (2024-01-23T11:20:03Z) - BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [65.92173280096588]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。
SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。
我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文 参考訳(メタデータ) (2024-01-04T15:34:44Z) - Guided Prompting in SAM for Weakly Supervised Cell Segmentation in
Histopathological Images [27.14641973632063]
本稿では、セグメンタを誘導するために、関連するタスクからのアノテーションである弱い監視を使用することに焦点を当てる。
SAM(Segment Anything)のような最近の基礎モデルは、推論中に追加の監視を活用するためにプロンプトを使用することができる。
すべてのSAMベースのソリューションは、既存の弱教師付きイメージセグメンテーションモデルを大幅に上回り、9~15 ptのDiceゲインを得る。
論文 参考訳(メタデータ) (2023-11-29T11:18:48Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。