論文の概要: Stable Segment Anything Model
- arxiv url: http://arxiv.org/abs/2311.15776v2
- Date: Tue, 5 Dec 2023 15:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:46:41.245600
- Title: Stable Segment Anything Model
- Title(参考訳): 安定セグメントオールモデル
- Authors: Qi Fan, Xin Tao, Lei Ke, Mingqiao Ye, Yuan Zhang, Pengfei Wan,
Zhongyuan Wang, Yu-Wing Tai, Chi-Keung Tang
- Abstract要約: SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
- 参考スコア(独自算出の注目度): 79.9005670886038
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Segment Anything Model (SAM) achieves remarkable promptable segmentation
given high-quality prompts which, however, often require good skills to
specify. To make SAM robust to casual prompts, this paper presents the first
comprehensive analysis on SAM's segmentation stability across a diverse
spectrum of prompt qualities, notably imprecise bounding boxes and insufficient
points. Our key finding reveals that given such low-quality prompts, SAM's mask
decoder tends to activate image features that are biased towards the background
or confined to specific object parts. To mitigate this issue, our key idea
consists of calibrating solely SAM's mask attention by adjusting the sampling
locations and amplitudes of image features, while the original SAM model
architecture and weights remain unchanged. Consequently, our deformable
sampling plugin (DSP) enables SAM to adaptively shift attention to the prompted
target regions in a data-driven manner, facilitated by our effective robust
training strategy (RTS). During inference, dynamic routing plugin (DRP) is
proposed that toggles SAM between the deformable and regular grid sampling
modes, conditioned on the input prompt quality. Thus, our solution, termed
Stable-SAM, offers several advantages: 1) improved SAM's segmentation stability
across a wide range of prompt qualities, while 2) retaining SAM's powerful
promptable segmentation efficiency and generality, with 3) minimal learnable
parameters (0.08 M) and fast adaptation (by 1 training epoch). Extensive
experiments across multiple datasets validate the effectiveness and advantages
of our approach, underscoring Stable-SAM as a more robust solution for
segmenting anything. Codes will be released upon acceptance.
https://github.com/fanq15/Stable-SAM
- Abstract(参考訳): SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
SAMをカジュアルなプロンプトに頑健にするために,本論文はSAMのセグメンテーション安定性について,特に不正確なバウンディングボックスと不足点の多種多様な特性のスペクトルにわたって包括的解析を行った。
我々の重要な発見は、このような低品質のプロンプトが与えられた場合、SAMのマスクデコーダは背景に偏ったり、特定のオブジェクトに制限された画像特徴を活性化する傾向があることを示している。
この問題を緩和するために、私たちはSAMのマスクのみの注意を調整し、画像特徴のサンプリング位置と振幅を調整し、オリジナルのSAMモデルアーキテクチャと重みは変わっていない。
その結果,DSP (Deformable sample plugin) により, SAM はデータ駆動方式で誘導対象領域に適応的に注意を移すことが可能となり, 効率的なロバストトレーニング戦略 (RTS) によって促進される。
推論中、動的ルーティングプラグイン(DRP)が提案され、インプットプロンプトの品質を条件に、変形可能なグリッドサンプリングモードと正規のグリッドサンプリングモードの間でSAMを切り替える。
したがって、Stable-SAMと呼ばれるソリューションにはいくつかの利点がある。
1)SAMのセグメンテーション安定性は、幅広い即興品質で改善されている。
2)SAMの強力なセグメンテーション効率と一般性を維持すること
3) 学習可能な最小パラメータ(0.08M)と高速適応(1トレーニングエポック)。
複数のデータセットにわたる大規模な実験により、アプローチの有効性とメリットが検証され、Stable-SAMはより堅牢なセグメンテーションソリューションとして評価される。
コードは受理後に公開される。
https://github.com/fanq15/Stable-SAM
関連論文リスト
- WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小化しながら、事前学習した知識を完全に活用するために、SAMは凍結し、最小限の追加パラメータと計算を導入します。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning
of SAM [37.1263294647351]
BLO-SAMを導入し、二段階最適化(BLO)に基づいてSAM(Segment Anything Model)を微調整する。
BLO-SAMは、モデルの重みパラメータのトレーニングと、トレーニングデータセットの2つの別々のサブセットへの迅速な埋め込みによって、過適合のリスクを低減する。
その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-26T06:36:32Z) - ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation [5.376142948115328]
本稿では,ZSASのためのCLIPおよびSAM協調フレームワークであるClipSAMを提案する。
ClipSAMの背後にある洞察は、CLIPのセマンティック理解機能を、異常なローカライゼーションと粗いセグメンテーションに活用することである。
本稿では,視覚的特徴と対話するためのUMCI(Unified Multi-scale Cross-modal Interaction)モジュールについて述べる。
論文 参考訳(メタデータ) (2024-01-23T11:20:03Z) - Learning to Prompt Segment Anything Models [55.805816693815835]
Segment Anything Models (SAM)は、何かをセグメント化する学習において大きな可能性を実証している。
SAMは、空間的プロンプト(例えば、点)と意味的プロンプト(例えば、テキスト)を含む2種類のプロンプトで動作する。
より優れたSAMのための効果的な意味と空間的プロンプトを学習する空間意味的プロンプト学習(SSPrompt)を提案する。
論文 参考訳(メタデータ) (2024-01-09T16:24:25Z) - BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [69.85171104474558]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。
SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。
我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文 参考訳(メタデータ) (2024-01-04T15:34:44Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - All-in-SAM: from Weak Annotation to Pixel-wise Nuclei Segmentation with
Prompt-based Finetuning [16.016139980843835]
Segment Anything Model (SAM) は、ゼロショットセグメンテーションアプローチにおいて、最近提案されたプロンプトベースのセグメンテーションモデルである。
推論段階で手動のプロンプトを必要とせずに,AI開発ワークフロー全体を通じてSAMを利用するパイプラインを導入する。
実験の結果,1) 提案したパイプラインは, 公開モヌセグデータセット上での核分割タスクにおいて, 最先端(SOTA)手法を超越し, 2) SAMファインタニングのための弱いアノテーションと少ないアノテーションの利用により, 競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-07-01T10:12:46Z) - On the Robustness of Segment Anything [46.669794757467166]
我々は, SAMの試験時間ロバスト性について, 敵のシナリオと共通の腐敗下で検討することを目的としている。
SAMは、ぼやけた汚職を除いて、様々な汚職に対して顕著な堅牢性を示す。
論文 参考訳(メタデータ) (2023-05-25T16:28:30Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。