論文の概要: Boosting Segment Anything Model to Generalize Visually Non-Salient Scenarios
- arxiv url: http://arxiv.org/abs/2601.00537v1
- Date: Fri, 02 Jan 2026 02:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.503058
- Title: Boosting Segment Anything Model to Generalize Visually Non-Salient Scenarios
- Title(参考訳): 視覚的に非現実的なシナリオを一般化するためのセグメンテーションモデル
- Authors: Guangqian Guo, Pengfei Chen, Yong Guo, Huafeng Chen, Boqiang Zhang, Shan Gao,
- Abstract要約: 視覚的に非現実的なシナリオに対して視覚的に非現実的なSAM(VNS-SAM)を提案する。
VNS-SAMは、オリジナルのゼロショットの一般化性を保ちながら、SAMの視覚的に無意味なシナリオに対する認識を強化することを目的としている。
SAMデコーダの設計は、余剰パラメータの増分しか持たない非塩分特性をより深く理解するのに役立つ。
- 参考スコア(独自算出の注目度): 31.56671125284146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Model (SAM), known for its remarkable zero-shot segmentation capabilities, has garnered significant attention in the community. Nevertheless, its performance is challenged when dealing with what we refer to as visually non-salient scenarios, where there is low contrast between the foreground and background. In these cases, existing methods often cannot capture accurate contours and fail to produce promising segmentation results. In this paper, we propose Visually Non-Salient SAM (VNS-SAM), aiming to enhance SAM's perception of visually non-salient scenarios while preserving its original zero-shot generalizability. We achieve this by effectively exploiting SAM's low-level features through two designs: Mask-Edge Token Interactive decoder and Non-Salient Feature Mining module. These designs help the SAM decoder gain a deeper understanding of non-salient characteristics with only marginal parameter increments and computational requirements. The additional parameters of VNS-SAM can be optimized within 4 hours, demonstrating its feasibility and practicality. In terms of data, we established VNS-SEG, a unified dataset for various VNS scenarios, with more than 35K images, in contrast to previous single-task adaptations. It is designed to make the model learn more robust VNS features and comprehensively benchmark the model's segmentation performance and generalizability on VNS scenarios. Extensive experiments across various VNS segmentation tasks demonstrate the superior performance of VNS-SAM, particularly under zero-shot settings, highlighting its potential for broad real-world applications. Codes and datasets are publicly available at https://guangqian-guo.github.io/VNS-SAM.
- Abstract(参考訳): 特筆すべきゼロショットセグメンテーション能力で知られるSegment Anything Model (SAM) は、コミュニティで大きな注目を集めている。
それでも、フォアグラウンドとバックグラウンドのコントラストが低い視覚的に非塩分シナリオと呼ばれるシナリオを扱う場合、そのパフォーマンスには課題があります。
このような場合、既存の手法では正確な輪郭を捉えることができず、有望なセグメンテーション結果が得られないことが多い。
本稿では,視覚的に非現実的なシナリオに対するSAMの認識を高めることを目的とした,視覚的に非現実的なSAM(VNS-SAM)を提案する。
本研究では,Msk-Edge Token InteractiveデコーダとNon-Salient Feature Miningモジュールの2つの設計により,SAMの低レベル機能を効果的に活用する。
これらの設計は、SAMデコーダが余剰パラメータの増分と計算要求のみを伴って非定常特性のより深い理解を得るのに役立つ。
VNS-SAMのさらなるパラメータは4時間以内に最適化でき、実現可能性と実用性を示すことができる。
データに関しては,従来のシングルタスク適応とは対照的に,様々なVNSシナリオを対象とした統合データセットであるVNS-SEGを35K以上の画像で構築した。
モデルがより堅牢なVNS機能を学習できるように設計され、VNSシナリオにおけるモデルのセグメンテーション性能と一般化可能性を総合的にベンチマークする。
様々なVNSセグメンテーションタスクにわたる大規模な実験は、特にゼロショット設定下でのVNS-SAMの優れた性能を示し、広範に現実世界の応用の可能性を強調している。
コードとデータセットはhttps://guangqian-guo.github.io/VNS-SAMで公開されている。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - TS-SAM: Fine-Tuning Segment-Anything Model for Downstream Tasks [10.75125721857487]
微調整されたSAMとドメイン固有のモデルの間には、依然として大きなパフォーマンスギャップがあります。
本稿では,SAM の強力な特徴をサイドネットワークトレーニングに統合し,包括的特徴融合を実現する Two-Stream SAM (TS-SAM) を提案する。
3つのタスクから得られた10の公開データセットに対する大規模な実験により、TS-SAMは、最近提案されたSAM-AdapterとSSOMよりも大幅に優れているだけでなく、SOTAドメイン固有のモデルとの競合性能も達成している。
論文 参考訳(メタデータ) (2024-08-03T18:08:51Z) - ASAM: Boosting Segment Anything Model with Adversarial Tuning [9.566046692165884]
本稿では, 対角的チューニングにより基礎モデルの性能を増幅する新しい手法であるASAMを紹介する。
我々は,自然言語処理における実装の成功に触発された,自然対逆例の可能性を生かした。
本手法は, 対向例のフォトリアリズムを維持し, 元のマスクアノテーションとの整合性を確保する。
論文 参考訳(メタデータ) (2024-05-01T00:13:05Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment
Anything to SAR Domain for Semantic Segmentation [6.229326337093342]
Segment Anything Model (SAM) は意味情報と一般化能力に依存する様々なセグメンテーションシナリオを抽出する。
The ClassWiseSAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on Spaceborne Synthetic Aperture Radar (SAR) images。
CWSAMは、少ないコンピューティングリソースでパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-01-04T15:54:45Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。