論文の概要: PosSAM: Panoptic Open-vocabulary Segment Anything
- arxiv url: http://arxiv.org/abs/2403.09620v1
- Date: Thu, 14 Mar 2024 17:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 19:06:48.281497
- Title: PosSAM: Panoptic Open-vocabulary Segment Anything
- Title(参考訳): PosSAM: Panoptic Open-vocabulary Segment Anything
- Authors: Vibashan VS, Shubhankar Borse, Hyojin Park, Debasmit Das, Vishal Patel, Munawar Hayat, Fatih Porikli,
- Abstract要約: PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 58.72494640363136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce an open-vocabulary panoptic segmentation model that effectively unifies the strengths of the Segment Anything Model (SAM) with the vision-language CLIP model in an end-to-end framework. While SAM excels in generating spatially-aware masks, it's decoder falls short in recognizing object class information and tends to oversegment without additional guidance. Existing approaches address this limitation by using multi-stage techniques and employing separate models to generate class-aware prompts, such as bounding boxes or segmentation masks. Our proposed method, PosSAM is an end-to-end model which leverages SAM's spatially rich features to produce instance-aware masks and harnesses CLIP's semantically discriminative features for effective instance classification. Specifically, we address the limitations of SAM and propose a novel Local Discriminative Pooling (LDP) module leveraging class-agnostic SAM and class-aware CLIP features for unbiased open-vocabulary classification. Furthermore, we introduce a Mask-Aware Selective Ensembling (MASE) algorithm that adaptively enhances the quality of generated masks and boosts the performance of open-vocabulary classification during inference for each image. We conducted extensive experiments to demonstrate our methods strong generalization properties across multiple datasets, achieving state-of-the-art performance with substantial improvements over SOTA open-vocabulary panoptic segmentation methods. In both COCO to ADE20K and ADE20K to COCO settings, PosSAM outperforms the previous state-of-the-art methods by a large margin, 2.4 PQ and 4.6 PQ, respectively. Project Website: https://vibashan.github.io/possam-web/.
- Abstract(参考訳): 本稿では,Segment Anything Model(SAM)の強みを,エンドツーエンドのフレームワークで視覚言語CLIPモデルと効果的に統合する,オープンな語彙的パノプティセグメンテーションモデルを提案する。
SAMは空間的に認識可能なマスクを生成するのに優れていますが、デコーダはオブジェクトクラス情報を認識するのに不足しており、追加のガイダンスなしでオーバーセージする傾向があります。
既存のアプローチでは、マルチステージ技術を使用して、バウンディングボックスやセグメンテーションマスクなどのクラス認識プロンプトを生成することで、この制限に対処している。
提案手法であるPosSAMは、SAMの空間的リッチな特徴を活用して、インスタンス認識マスクを生成し、CLIPのセマンティック識別機能を有効インスタンス分類に活用するエンド・ツー・エンドモデルである。
具体的には、SAMの限界に対処し、クラスに依存しないSAMとクラス認識CLIP機能を利用した新しいローカル識別プール(LDP)モジュールを提案する。
さらに、生成マスクの品質を適応的に向上させ、各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズム(MASE)を導入する。
我々は,複数のデータセットにまたがる手法の強い一般化特性を実証し,SOTAオープンボキャブラリ・パノプティクス・セグメンテーション法よりも大幅に改善された最先端性能を実現するために,広範な実験を行った。
COCO - ADE20K と ADE20K の両方のCOCO設定では、PosSAM は従来の最先端の手法をそれぞれ2.4 PQ と 4.6 PQ で上回っている。
プロジェクトサイト:https://vibashan.github.io/possam-web/.com
関連論文リスト
- Effective SAM Combination for Open-Vocabulary Semantic Segmentation [24.126307031048203]
Open-vocabulary semantic segmentationは、無制限のクラスにわたる画像にピクセルレベルのラベルを割り当てることを目的としている。
ESC-Netは、SAMデコーダブロックを利用してクラスに依存しないセグメンテーションを行う新しい1段オープン語彙セグメンテーションモデルである。
ESC-NetはADE20K、PASCAL-VOC、PASCAL-Contextなどの標準ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-11-22T04:36:12Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - SAM-MIL: A Spatial Contextual Aware Multiple Instance Learning Approach for Whole Slide Image Classification [9.69491390062406]
本研究では,空間的文脈認識を重視し,空間的文脈を明示的に取り入れた新しいMILフレームワークSAM-MILを提案する。
提案手法は,空間的文脈に基づくグループ特徴抽出とSAM-Guided Group Masking戦略を含む。
CAMELYON-16およびTCGA肺がんデータセットの実験結果から,提案したSAM-MILモデルは,WSIs分類において既存の主流手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-25T01:12:48Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - Tuning-free Universally-Supervised Semantic Segmentation [5.455525100072623]
本稿では,CLIPによるSAMマスクの分類に基づく,チューニング不要なセマンティックセマンティックセマンティクスフレームワークを提案する。
マスクとテキストの埋め込みを密に調整し、オーバーヘッドのない性能向上を実現するために、差別バイアスに整合したCLIPを提案する。
次に、SAMマスクを分類するために、グローバルな一貫した一貫した構造を構築し、高品質な埋め込みの本質的な構造を明らかにする。
論文 参考訳(メタデータ) (2024-05-23T08:13:52Z) - ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation [5.376142948115328]
本稿では,ZSASのためのCLIPおよびSAM協調フレームワークであるClipSAMを提案する。
ClipSAMの背後にある洞察は、CLIPのセマンティック理解機能を、異常なローカライゼーションと粗いセグメンテーションに活用することである。
本稿では,視覚的特徴と対話するためのUMCI(Unified Multi-scale Cross-modal Interaction)モジュールについて述べる。
論文 参考訳(メタデータ) (2024-01-23T11:20:03Z) - Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively [69.97238935096094]
Open-Vocabulary SAMはSAMにインスパイアされたモデルであり、対話的なセグメンテーションと認識のために設計されている。
約22,000のクラスを分類・認識できる。
論文 参考訳(メタデータ) (2024-01-05T18:59:22Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。