論文の概要: Pro2SAM: Mask Prompt to SAM with Grid Points for Weakly Supervised Object Localization
- arxiv url: http://arxiv.org/abs/2505.04905v1
- Date: Thu, 08 May 2025 02:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.727194
- Title: Pro2SAM: Mask Prompt to SAM with Grid Points for Weakly Supervised Object Localization
- Title(参考訳): Pro2SAM: 弱教師付きオブジェクトローカライゼーションのためのグリッドポイント付きSAMへのマスクプロンプト
- Authors: Xi Yang, Songsong Duan, Nannan Wang, Xinbo Gao,
- Abstract要約: 本稿では,WSOLタスクのグリッドポイントを持つSAM(Pro2SAM)ネットワークに対して,革新的なマスクプロンプトを提案する。
まず,グローバルトークン変換器(GTFormer)を設計し,フレキシブルマスクプロンプトとして粗粒のフォアグラウンドマップを生成する。
第2に,フォアグラウンドマスクの確率を最大化するために,密度の高いプロンプトとしてグリッドポイントをSAMに配信する。
- 参考スコア(独自算出の注目度): 54.91271106816616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly Supervised Object Localization (WSOL), which aims to localize objects by only using image-level labels, has attracted much attention because of its low annotation cost in real applications. Current studies focus on the Class Activation Map (CAM) of CNN and the self-attention map of transformer to identify the region of objects. However, both CAM and self-attention maps can not learn pixel-level fine-grained information on the foreground objects, which hinders the further advance of WSOL. To address this problem, we initiatively leverage the capability of zero-shot generalization and fine-grained segmentation in Segment Anything Model (SAM) to boost the activation of integral object regions. Further, to alleviate the semantic ambiguity issue accrued in single point prompt-based SAM, we propose an innovative mask prompt to SAM (Pro2SAM) network with grid points for WSOL task. First, we devise a Global Token Transformer (GTFormer) to generate a coarse-grained foreground map as a flexible mask prompt, where the GTFormer jointly embeds patch tokens and novel global tokens to learn foreground semantics. Secondly, we deliver grid points as dense prompts into SAM to maximize the probability of foreground mask, which avoids the lack of objects caused by a single point/box prompt. Finally, we propose a pixel-level similarity metric to come true the mask matching from mask prompt to SAM, where the mask with the highest score is viewed as the final localization map. Experiments show that the proposed Pro2SAM achieves state-of-the-art performance on both CUB-200-2011 and ILSVRC, with 84.03\% and 66.85\% Top-1 Loc, respectively.
- Abstract(参考訳): Weakly Supervised Object Localization (WSOL)は、画像レベルのラベルだけでオブジェクトをローカライズすることを目的としている。
最近の研究は、CNNのクラス活性化マップ(CAM)と、オブジェクトの領域を識別するトランスフォーマーの自己アテンションマップに焦点を当てている。
しかし、CAMと自己アテンションマップの両方では、前景オブジェクトのピクセルレベルのきめ細かい情報を学べず、WSOLのさらなる進歩を妨げる。
この問題に対処するために, SAM(Segment Anything Model)におけるゼロショット一般化ときめ細かなセグメンテーションの能力を活用し, 積分対象領域の活性化を促進する。
さらに,一点プロンプトベースSAMにおける意味あいまいさ問題を軽減するために,WSOLタスクのグリッドポイントを持つSAM(Pro2SAM)ネットワークに対して,革新的なマスクプロンプトを提案する。
まず,GTFormerがパッチトークンと新しいグローバルトークンを併用してフォアグラウンドセマンティクスを学習する,フレキシブルマスクプロンプトとして粗粒のフォアグラウンドマップを生成するためのグローバルトークントランスフォーマー(GTFormer)を考案する。
第2に,一点/箱プロンプトによって生じる物体の欠如を回避するために,前景マスクの確率を最大化するために,格子点をSAMに高密度なプロンプトとして供給する。
最後に,マスクプロンプトからSAMへのマスクマッチングを真にするための画素レベルの類似度尺度を提案し,最も高いスコアのマスクを最終ローカライズマップとみなす。
実験の結果、提案されたPro2SAMは、それぞれ84.03\%と66.85\%のTop-1 Locを持つCUB-200-2011とILSVRCの両方で最先端の性能を達成した。
関連論文リスト
- Auto-Prompting SAM for Weakly Supervised Landslide Extraction [17.515220489213743]
本稿では,Segment Anything Model (SAM) の自動プロンプトによる簡易かつ効果的な手法を提案する。
擬似ラベルや微調整SAMのための高品質なクラスアクティベーションマップ (CAM) に頼る代わりに,本手法はSAM推論から即時工学を通して,きめ細かなセグメンテーションマスクを直接生成する。
高分解能空中・衛星データを用いた実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2025-01-23T07:08:48Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - MaskSAM: Towards Auto-prompt SAM with Mask Classification for Volumetric Medical Image Segmentation [17.25946659884426]
医用画像セグメンテーションのためのマスク分類プロンプトフリーフレームワークであるMaskSAMを提案する。
本手法は,AMOS2022,90.52%のDice上での最先端性能を実現し,nnUNetに比べて2.7%向上した。
論文 参考訳(メタデータ) (2024-03-21T03:28:24Z) - Repurposing SAM for User-Defined Semantics Aware Segmentation [23.88643687043431]
SAMに意味認識を付与する新しいフレームワークであるU-SAMを提案する。
U-SAMは、テストデータディストリビューションのラベル付き/ラベルなしサンプルを必要とせずに、画像にピクセルレベルのセマンティックアノテーションを提供する。
We evaluate U-SAM on PASCAL VOC 2012 and MSCOCO-80, achieve significant mIoU improve of +17.95% and +520%。
論文 参考訳(メタデータ) (2023-12-05T01:37:18Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。