論文の概要: SAQ-SAM: Semantically-Aligned Quantization for Segment Anything Model
- arxiv url: http://arxiv.org/abs/2503.06515v1
- Date: Sun, 09 Mar 2025 08:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:52.776374
- Title: SAQ-SAM: Semantically-Aligned Quantization for Segment Anything Model
- Title(参考訳): SAQ-SAM:セグメンテーションモデルのためのSemantically-Aligned Quantization
- Authors: Jing Zhang, Zhikai Li, Qingyi Gu,
- Abstract要約: 本稿では,クリッピング基準として重なり合う注意力を利用した知覚一貫性クリッピングを提案する。
また,マスクデコーダのクロスアテンション応答を活用することで,視覚的プロンプトインタラクションを取り入れたPrompt-Aware Reconstructionを提案する。
本手法は, セグメンテーションタスクにおいて, ベースラインよりも11.7%高いmAPを実現する。
- 参考スコア(独自算出の注目度): 9.381558154295012
- License:
- Abstract: Segment Anything Model (SAM) exhibits remarkable zero-shot segmentation capability; however, its prohibitive computational costs make edge deployment challenging. Although post-training quantization (PTQ) offers a promising compression solution, existing methods yield unsatisfactory results when applied to SAM, owing to its specialized model components and promptable workflow: (i) The mask decoder's attention exhibits extreme outliers, and we find that aggressive clipping (ranging down to even 100$\times$), instead of smoothing or isolation, is effective in suppressing outliers while maintaining semantic capabilities. Unfortunately, traditional metrics (e.g., MSE) fail to provide such large-scale clipping. (ii) Existing reconstruction methods potentially neglect prompts' intention, resulting in distorted visual encodings during prompt interactions. To address the above issues, we propose SAQ-SAM in this paper, which boosts PTQ of SAM with semantic alignment. Specifically, we propose Perceptual-Consistency Clipping, which exploits attention focus overlap as clipping metric, to significantly suppress outliers. Furthermore, we propose Prompt-Aware Reconstruction, which incorporates visual-prompt interactions by leveraging cross-attention responses in mask decoder, thus facilitating alignment in both distribution and semantics. To ensure the interaction efficiency, we also introduce a layer-skipping strategy for visual tokens. Extensive experiments are conducted on different segmentation tasks and SAMs of various sizes, and the results show that the proposed SAQ-SAM consistently outperforms baselines. For example, when quantizing SAM-B to 4-bit, our method achieves 11.7% higher mAP than the baseline in instance segmentation task.
- Abstract(参考訳): Segment Anything Model (SAM) は目覚ましいゼロショットセグメンテーション能力を示すが、その計算コストの禁止はエッジデプロイメントを困難にしている。
ポストトレーニング量子化(PTQ)は、有望な圧縮ソリューションを提供するが、既存のメソッドはSAMに適用されると不満足な結果をもたらす。
(i)マスクデコーダの注意は極端な外れ値を示し、スムーシングやアイソレーションの代わりにアグレッシブクリッピング(100$\times$まで)は、セマンティックな能力を維持しつつ、外れ値の抑制に有効であることがわかった。
残念ながら、従来のメトリクス(例えば、MSE)は、このような大規模なクリップを提供していない。
2 既存の再建手法は、プロンプトの意図を無視する可能性があり、即時相互作用中に歪みのある視覚的エンコーディングをもたらす。
以上の課題に対処するため,本論文では,SAMのPTQをセマンティックアライメントで向上させるSAQ-SAMを提案する。
具体的には,クリッピング基準として注目の重なりを生かしたパーセプチュアル・コンシスタンス・クリッピングを提案する。
さらに,マスクデコーダにおけるクロスアテンション応答を活用することで,視覚的プロンプトインタラクションを取り入れたPrompt-Aware Reconstructionを提案する。
インタラクションの効率を確保するため,視覚トークンのレイヤスキャッピング戦略も導入する。
様々な大きさのセグメンテーションタスクとSAMに対して大規模な実験を行い、提案したSAQ-SAMがベースラインを一貫して上回ることを示した。
例えば、SAM-Bを4ビットに量子化する場合、本手法はインスタンス分割タスクのベースラインよりも11.7%高いmAPを達成する。
関連論文リスト
- SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement [40.37217744643069]
マスク改善タスクにSAMを適用することで,汎用的で効率的なアプローチを提案する。
具体的には,SAMの多様な入力プロンプトをマイニングするためのマルチプロンプト掘削手法を提案する。
ターゲットデータセット上のジェネリックSAMRefinerのパフォーマンスをさらに向上するため、IoU適応ステップを追加してSAMRefiner++にメソッドを拡張します。
論文 参考訳(メタデータ) (2025-02-10T18:33:15Z) - Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
異常セグメンテーションのための textbfSelf-textbfPerceptinon textbfTuning (textbfSPT) 法を提案する。
SPT法は, 自己描画型チューニング戦略を取り入れ, 異常マスクの初期粗いドラフトを生成し, 精製処理を行う。
論文 参考訳(メタデータ) (2024-11-26T08:33:25Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation [5.376142948115328]
本稿では,ZSASのためのCLIPおよびSAM協調フレームワークであるClipSAMを提案する。
ClipSAMの背後にある洞察は、CLIPのセマンティック理解機能を、異常なローカライゼーションと粗いセグメンテーションに活用することである。
本稿では,視覚的特徴と対話するためのUMCI(Unified Multi-scale Cross-modal Interaction)モジュールについて述べる。
論文 参考訳(メタデータ) (2024-01-23T11:20:03Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。