論文の概要: Repurposing SAM for User-Defined Semantics Aware Segmentation
- arxiv url: http://arxiv.org/abs/2312.02420v2
- Date: Wed, 02 Apr 2025 05:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:16:32.847980
- Title: Repurposing SAM for User-Defined Semantics Aware Segmentation
- Title(参考訳): セグメンテーションを考慮したユーザ定義セマンティクスのためのSAMの再利用
- Authors: Rohit Kundu, Sudipta Paul, Arindam Dutta, Amit K. Roy-Chowdhury,
- Abstract要約: SAMに意味認識を付与する新しいフレームワークであるU-SAMを提案する。
U-SAMは、テストデータディストリビューションのラベル付き/ラベルなしサンプルを必要とせずに、画像にピクセルレベルのセマンティックアノテーションを提供する。
We evaluate U-SAM on PASCAL VOC 2012 and MSCOCO-80, achieve significant mIoU improve of +17.95% and +520%。
- 参考スコア(独自算出の注目度): 23.88643687043431
- License:
- Abstract: The Segment Anything Model (SAM) excels at generating precise object masks from input prompts but lacks semantic awareness, failing to associate its generated masks with specific object categories. To address this limitation, we propose U-SAM, a novel framework that imbibes semantic awareness into SAM, enabling it to generate targeted masks for user-specified object categories. Given only object class names as input from the user, U-SAM provides pixel-level semantic annotations for images without requiring any labeled/unlabeled samples from the test data distribution. Our approach leverages synthetically generated or web crawled images to accumulate semantic information about the desired object classes. We then learn a mapping function between SAM's mask embeddings and object class labels, effectively enhancing SAM with granularity-specific semantic recognition capabilities. As a result, users can obtain meaningful and targeted segmentation masks for specific objects they request, rather than generic and unlabeled masks. We evaluate U-SAM on PASCAL VOC 2012 and MSCOCO-80, achieving significant mIoU improvements of +17.95% and +5.20%, respectively, over state-of-the-art methods. By transforming SAM into a semantically aware segmentation model, U-SAM offers a practical and flexible solution for pixel-level annotation across diverse and unseen domains in a resource-constrained environment.
- Abstract(参考訳): Segment Anything Model (SAM) は、入力プロンプトから正確なオブジェクトマスクを生成するのに優れるが、意味的認識に欠け、生成されたマスクと特定のオブジェクトカテゴリを関連付けることができない。
この制限に対処するため,本研究では,SAMに意味認識を付与する新しいフレームワークであるU-SAMを提案する。
ユーザからの入力としてオブジェクトクラス名のみを与えられた場合、U-SAMはテストデータディストリビューションからラベル付き/ラベルなしのサンプルを必要とせずに、画像にピクセルレベルのセマンティックアノテーションを提供する。
提案手法では, 合成画像やWebクローリング画像を利用して, 所望のオブジェクトクラスに関するセマンティック情報を蓄積する。
次に、SAMのマスク埋め込みとオブジェクトクラスラベルのマッピング機能を学び、粒度固有の意味認識機能でSAMを効果的に強化する。
その結果、ユーザーは汎用的でラベル付けされていないマスクではなく、要求する特定のオブジェクトに対して意味のある、ターゲットのセグメンテーションマスクを得ることができる。
PASCAL VOC 2012 と MSCOCO-80 の U-SAM の評価を行い,mIoU の改善は,最先端の手法に比べて,+17.95% と +5.20% であった。
SAMを意味的に認識されたセグメンテーションモデルに変換することで、U-SAMはリソース制約のある環境において、多種多様な未確認領域にまたがるピクセルレベルのアノテーションに対して実用的で柔軟なソリューションを提供する。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals [15.258631373740686]
教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルセマンティックカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。
そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。
これにより、予測最大化アルゴリズムであるPriMaPs-EMを用いて、クラスプロトタイプをPriMaPsに適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
論文 参考訳(メタデータ) (2024-04-25T17:58:09Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery
Based on Large Vision Models [14.292149307183967]
本研究は,少数ショットセマンティックセグメンテーションの自動化を目的とした構造化フレームワークを提案する。
SAMモデルを利用して、意味的に識別可能なセグメンテーションの結果をより効率的に生成する。
提案手法の中心は,従来のガイドマスクを利用してSAMの粗い画素単位のプロンプトを生成する,新しい自動プロンプト学習手法である。
論文 参考訳(メタデータ) (2023-11-22T07:07:55Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Multi-Granularity Denoising and Bidirectional Alignment for Weakly
Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。
MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文 参考訳(メタデータ) (2023-05-09T03:33:43Z) - A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic
Segmentation [40.27705176115985]
Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、地上の真実のピクセルレベルのラベルを持つ少数の画像しか利用できない学習タスクに対処する。
限られたデータとその意味ラベルから擬似画素レベルのセグメンテーションマスクを予測するメタラーニングフレームワークを提案する。
提案する学習モデルは,画素レベルのメタラーナーとみなすことができる。
論文 参考訳(メタデータ) (2021-11-02T08:28:11Z) - Towards Single Stage Weakly Supervised Semantic Segmentation [2.28438857884398]
弱教師付きセマンティックセグメンテーションへのシングルステージアプローチを提案する。
ポイントアノテーションを使用して、オンザフライで信頼性の高い擬似マスクを生成します。
我々は、最近の実世界のデータセットにおいて、他のSOTA WSSS手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-06-18T18:34:50Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。