論文の概要: Stable Segment Anything Model
- arxiv url: http://arxiv.org/abs/2311.15776v2
- Date: Tue, 5 Dec 2023 15:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:46:41.245600
- Title: Stable Segment Anything Model
- Title(参考訳): 安定セグメントオールモデル
- Authors: Qi Fan, Xin Tao, Lei Ke, Mingqiao Ye, Yuan Zhang, Pengfei Wan,
Zhongyuan Wang, Yu-Wing Tai, Chi-Keung Tang
- Abstract要約: SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
- 参考スコア(独自算出の注目度): 79.9005670886038
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Segment Anything Model (SAM) achieves remarkable promptable segmentation
given high-quality prompts which, however, often require good skills to
specify. To make SAM robust to casual prompts, this paper presents the first
comprehensive analysis on SAM's segmentation stability across a diverse
spectrum of prompt qualities, notably imprecise bounding boxes and insufficient
points. Our key finding reveals that given such low-quality prompts, SAM's mask
decoder tends to activate image features that are biased towards the background
or confined to specific object parts. To mitigate this issue, our key idea
consists of calibrating solely SAM's mask attention by adjusting the sampling
locations and amplitudes of image features, while the original SAM model
architecture and weights remain unchanged. Consequently, our deformable
sampling plugin (DSP) enables SAM to adaptively shift attention to the prompted
target regions in a data-driven manner, facilitated by our effective robust
training strategy (RTS). During inference, dynamic routing plugin (DRP) is
proposed that toggles SAM between the deformable and regular grid sampling
modes, conditioned on the input prompt quality. Thus, our solution, termed
Stable-SAM, offers several advantages: 1) improved SAM's segmentation stability
across a wide range of prompt qualities, while 2) retaining SAM's powerful
promptable segmentation efficiency and generality, with 3) minimal learnable
parameters (0.08 M) and fast adaptation (by 1 training epoch). Extensive
experiments across multiple datasets validate the effectiveness and advantages
of our approach, underscoring Stable-SAM as a more robust solution for
segmenting anything. Codes will be released upon acceptance.
https://github.com/fanq15/Stable-SAM
- Abstract(参考訳): SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
SAMをカジュアルなプロンプトに頑健にするために,本論文はSAMのセグメンテーション安定性について,特に不正確なバウンディングボックスと不足点の多種多様な特性のスペクトルにわたって包括的解析を行った。
我々の重要な発見は、このような低品質のプロンプトが与えられた場合、SAMのマスクデコーダは背景に偏ったり、特定のオブジェクトに制限された画像特徴を活性化する傾向があることを示している。
この問題を緩和するために、私たちはSAMのマスクのみの注意を調整し、画像特徴のサンプリング位置と振幅を調整し、オリジナルのSAMモデルアーキテクチャと重みは変わっていない。
その結果,DSP (Deformable sample plugin) により, SAM はデータ駆動方式で誘導対象領域に適応的に注意を移すことが可能となり, 効率的なロバストトレーニング戦略 (RTS) によって促進される。
推論中、動的ルーティングプラグイン(DRP)が提案され、インプットプロンプトの品質を条件に、変形可能なグリッドサンプリングモードと正規のグリッドサンプリングモードの間でSAMを切り替える。
したがって、Stable-SAMと呼ばれるソリューションにはいくつかの利点がある。
1)SAMのセグメンテーション安定性は、幅広い即興品質で改善されている。
2)SAMの強力なセグメンテーション効率と一般性を維持すること
3) 学習可能な最小パラメータ(0.08M)と高速適応(1トレーニングエポック)。
複数のデータセットにわたる大規模な実験により、アプローチの有効性とメリットが検証され、Stable-SAMはより堅牢なセグメンテーションソリューションとして評価される。
コードは受理後に公開される。
https://github.com/fanq15/Stable-SAM
関連論文リスト
- SAMPa: Sharpness-aware Minimization Parallelized [51.668052890249726]
シャープネス認識(SAM)はニューラルネットワークの一般化を改善することが示されている。
SAMの更新には2つの勾配を瞬時に計算する必要がある。
我々は,SAMPaと呼ばれるSAMの簡単な修正を提案し,この2つの勾配計算を完全に並列化することができる。
論文 参考訳(メタデータ) (2024-10-14T16:21:23Z) - SAM-SP: Self-Prompting Makes SAM Great Again [11.109389094334894]
Segment Anything Model (SAM)は、ゼロショットセグメンテーションタスクにおいて印象的な機能を示した。
SAMは、医療画像などの特定の領域に適用した場合、顕著な劣化性能に遭遇する。
本稿では,バニラSAMモデルの拡張に適したSAM-SPという,自己プロンプトに基づくファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T13:03:05Z) - Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - TS-SAM: Fine-Tuning Segment-Anything Model for Downstream Tasks [10.75125721857487]
微調整されたSAMとドメイン固有のモデルの間には、依然として大きなパフォーマンスギャップがあります。
本稿では,SAM の強力な特徴をサイドネットワークトレーニングに統合し,包括的特徴融合を実現する Two-Stream SAM (TS-SAM) を提案する。
3つのタスクから得られた10の公開データセットに対する大規模な実験により、TS-SAMは、最近提案されたSAM-AdapterとSSOMよりも大幅に優れているだけでなく、SOTAドメイン固有のモデルとの競合性能も達成している。
論文 参考訳(メタデータ) (2024-08-03T18:08:51Z) - Robust Box Prompt based SAM for Medical Image Segmentation [13.123657825272916]
本稿では,新しいロバストボックスプロンプトベースのSAM(textbfRoBox-SAM)を提案する。
まず、潜在的なターゲットを暗黙的に知覚するプロンプト改良モジュールを提案し、オフセットを出力し、低品質のボックスプロンプトを高品質なプロンプトに変換する。
第2に,プロンプト拡張モジュールを導入し,ポイントプロンプトを自動生成し,ボックスプロンプト可能なセグメンテーションを効果的に支援する。
論文 参考訳(メタデータ) (2024-07-31T02:16:28Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning
of SAM [37.1263294647351]
BLO-SAMを導入し、二段階最適化(BLO)に基づいてSAM(Segment Anything Model)を微調整する。
BLO-SAMは、モデルの重みパラメータのトレーニングと、トレーニングデータセットの2つの別々のサブセットへの迅速な埋め込みによって、過適合のリスクを低減する。
その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-26T06:36:32Z) - BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [65.92173280096588]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。
SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。
我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文 参考訳(メタデータ) (2024-01-04T15:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。