論文の概要: Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2501.00752v1
- Date: Wed, 01 Jan 2025 06:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:29.108744
- Title: Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
- Title(参考訳): SAM支援Few-Shotセグメンテーションのための前処理プロトタイプ生成とマッチング
- Authors: Suho Park, SuBeen Lee, Hyun Seok Seong, Jaejoon Yoo, Jae-Pil Heo,
- Abstract要約: 我々は、Few-Shot(FSS)を解決するために、前処理プロトタイプ生成とマッチングを提案する。
SAM機能を備えたクエリプロトタイプを構築し,ResNet機能に基づいたクエリプロトタイプを識別する。
提案手法の有効性を検証し,提案手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 15.301024379147709
- License:
- Abstract: We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
- Abstract(参考訳): 本研究では,Few-Shot Segmentation (FSS) の解決を目的としたFew-Shot Segmentation (FSS) のためのFeeground-Covering Prototype Generation and Matchingを提案する。
サポートプロトタイプとクエリピクセルを用いてクエリのターゲット領域を推定する従来の研究とは異なり、サポートプロトタイプとクエリプロトタイプの関係を利用する。
これを実現するために、SAMイメージエンコーダ機能とクラス一貫性のためのResNet機能という2つの補完機能を利用する。
具体的には、SAM機能を備えたクエリプロトタイプを構築し、ResNet機能に基づいてターゲット領域のクエリプロトタイプを識別する。
クエリのプロトタイプ構築では、従来の擬似マスクを用いてSAM機能内の前景領域を概略案内し、その後、前景特徴を学習可能なトークンに集約するために反復的横断アテンションを用いる。
ここでは,クロスアテンション重みが従来の擬似マスクを効果的に交換できることが分かる。
したがって、注意に基づく擬似マスクを使用してResNet機能を前景に向け、ガイドされたResNet機能を学習可能なトークンに注入し、クラス一貫性のあるクエリプロトタイプを生成する。
サポートプロトタイプの生成はクエリ1のそれと対称に行われ、擬似マスクは接地トラスマスクに置き換えられる。
最後に、これらのクエリプロトタイプとサポートプロトタイプを比較してプロンプトを生成し、SAM Mask Decoderを通じてオブジェクトマスクを生成する。
提案手法の有効性を検証し,提案手法の有効性を検証した。
公式コードはhttps://github.com/SuhoPark0706/FCPで入手可能です。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Correlation Weighted Prototype-based Self-Supervised One-Shot Segmentation of Medical Images [12.365801596593936]
医用画像セグメンテーションは、十分な注釈付きデータが入手できない領域の1つである。
スーパーピクセルから生成された擬似ラベルを用いた,プロトタイプベースのワンショット学習フレームワークを提案する。
提案手法は,最先端の手法と同等に機能することを示す。
論文 参考訳(メタデータ) (2024-08-12T15:38:51Z) - Support-Query Prototype Fusion Network for Few-shot Medical Image Segmentation [7.6695642174485705]
少量のラベル付きデータを用いて、見知らぬクラスに一般化する写真学習は、重要な研究領域として現れている。
本稿では,SQPFNet(Support-Query Prototype Fusion Network)を提案する。
SABSとCMRの2つの公開データセットの評価結果は、SQPFNetが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-05-13T07:31:16Z) - Self-Regularized Prototypical Network for Few-Shot Semantic Segmentation [31.445316481839335]
本稿では, プロトタイプ抽出に基づく自己正規化ネットワーク(SRPNet)を用いて, サポート情報のより良い活用を目的とした数ショットセグメンテーションに取り組む。
サポートセットの直接的かつ効果的なプロトタイプ正規化は、SRPNetで提案され、生成されたプロトタイプはサポートセット自身で評価され、正規化される。
提案するSRPNetは,1ショットと5ショットのセグメンテーションベンチマークにおいて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-30T12:43:07Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - Semantically Meaningful Class Prototype Learning for One-Shot Image
Semantic Segmentation [58.96902899546075]
ワンショットセマンティックイメージセグメンテーションは、1つの注釈付きイメージで新しいクラスのオブジェクト領域を分割することを目的としている。
最近の研究では、テスト時に予想される状況を模倣するために、エピソディクストレーニング戦略を採用している。
エピソードトレーニングにおいて,マルチクラスラベル情報を活用することを提案する。
ネットワークが各カテゴリに対してより意味のある機能を生成するように促すだろう。
論文 参考訳(メタデータ) (2021-02-22T12:07:35Z) - Prototype Mixture Models for Few-shot Semantic Segmentation [50.866870384596446]
サポートやクエリ画像内のオブジェクトが外観やポーズで大きく異なる可能性があるため、ショットのセグメンテーションは難しい。
プロトタイプベースセマンティック表現を強制するために,多種多様な画像領域と複数のプロトタイプとの相関関係を持つプロトタイプ混合モデル(PMMs)を提案する。
PMMはMS-COCOの5ショットセグメンテーション性能を最大5.82%改善し、モデルサイズと推論速度の適度なコストに留まった。
論文 参考訳(メタデータ) (2020-08-10T04:33:17Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。