論文の概要: Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation
and Beyond
- arxiv url: http://arxiv.org/abs/2308.07539v1
- Date: Tue, 15 Aug 2023 02:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 14:08:37.290230
- Title: Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation
and Beyond
- Title(参考訳): 少数ショットセグメンテーションのための視覚的およびテキスト的事前マスクアセンブラ
- Authors: Chen Shuai, Meng Fanman, Zhang Runtong, Qiu Heqian, Li Hongliang, Wu
Qingbo, Xu Linfeng
- Abstract要約: 視覚的およびテキスト的事前案内マスク集合ネットワーク(PGMA-Net)を提案する。
偏見を緩和するためにクラス非依存のマスクアセンブリープロセスを採用し、様々なタスクをアフィニティを通じて事前を組み立てることで統一的な方法で定式化する。
mIoUは$textPASCAL-5i$で7.6ドル、$textCOCO-20i$で59.4ドルである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot segmentation (FSS) aims to segment the novel classes with a few
annotated images. Due to CLIP's advantages of aligning visual and textual
information, the integration of CLIP can enhance the generalization ability of
FSS model. However, even with the CLIP model, the existing CLIP-based FSS
methods are still subject to the biased prediction towards base classes, which
is caused by the class-specific feature level interactions. To solve this
issue, we propose a visual and textual Prior Guided Mask Assemble Network
(PGMA-Net). It employs a class-agnostic mask assembly process to alleviate the
bias, and formulates diverse tasks into a unified manner by assembling the
prior through affinity. Specifically, the class-relevant textual and visual
features are first transformed to class-agnostic prior in the form of
probability map. Then, a Prior-Guided Mask Assemble Module (PGMAM) including
multiple General Assemble Units (GAUs) is introduced. It considers diverse and
plug-and-play interactions, such as visual-textual, inter- and intra-image,
training-free, and high-order ones. Lastly, to ensure the class-agnostic
ability, a Hierarchical Decoder with Channel-Drop Mechanism (HDCDM) is proposed
to flexibly exploit the assembled masks and low-level features, without relying
on any class-specific information. It achieves new state-of-the-art results in
the FSS task, with mIoU of $77.6$ on $\text{PASCAL-}5^i$ and $59.4$ on
$\text{COCO-}20^i$ in 1-shot scenario. Beyond this, we show that without extra
re-training, the proposed PGMA-Net can solve bbox-level and cross-domain FSS,
co-segmentation, zero-shot segmentation (ZSS) tasks, leading an any-shot
segmentation framework.
- Abstract(参考訳): Few-shot segmentation (FSS) は、いくつかの注釈付き画像で新しいクラスを分類することを目的としている。
CLIPの利点は、視覚情報とテキスト情報の整合性にあるため、CLIPの統合は、FSSモデルの一般化能力を高めることができる。
しかし、CLIPモデルでさえ、既存のCLIPベースのFSSメソッドは、クラス固有の特徴レベルの相互作用によって引き起こされるベースクラスに対するバイアス付き予測の対象となっている。
そこで本稿では,視覚およびテキストに先行したマスクアセンブラネットワーク(pgma-net)を提案する。
バイアスを軽減するためにクラス非依存のマスク組立プロセスを採用し、親和性を通じて前者を組み立てることで多様なタスクを統一的な方法で定式化する。
特に、クラス関係のテキスト的および視覚的特徴は、まず確率写像の形で、クラス非依存に変換される。
次に、複数のGAU(General Assemble Units)を含むPGMAM(Presideed-Guided Mask Assemble Module)を導入する。
視覚・テクスチュアル、インター・イントラ・イメージ、トレーニングフリー、高階の対話など、多種多様なプラグ・アンド・プレイの相互作用を考慮に入れている。
最後に, 階層型デコーダ(HDCDM)を提案し, 組立マスクと低レベル特徴を, クラス固有の情報に頼らずに柔軟に活用する。
1ショットシナリオでは、mIoUは$7.6$ on $\text{PASCAL-}5^i$と$59.4$ on $\text{COCO-}20^i$である。
これ以外にも,提案するPGMA-Netは,余分なトレーニングを伴わずに,bboxレベルとクロスドメインのFSS,コセグメンテーション,ゼロショットセグメンテーション(ZSS)タスクを解き,非ショットセグメンテーションフレームワークを導くことができることを示す。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Prompt-and-Transfer: Dynamic Class-aware Enhancement for Few-shot Segmentation [15.159690685421586]
本稿では、人間の視覚知覚パターンを模倣し、プロンプト・アンド・トランスファー(PAT)と呼ばれる、新しい強力なプロンプト駆動方式を提案する。
PATは、現在のタスクで関心のあるオブジェクト(ターゲットクラス)にフォーカスするためにエンコーダをチューニングするための動的クラス認識プロンプトパラダイムを構築します。
驚いたことに、PATは標準のFSS、クロスドメインのFSS、Wak-label、Zero-shot-labelを含む4つのタスクで競合するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-16T15:24:26Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Label Anything: Multi-Class Few-Shot Semantic Segmentation with Visual Prompts [10.262029691744921]
少ショットセマンティックセグメンテーション(FSS)用に設計された革新的なニューラルネットワークアーキテクチャであるLabel Anythingを紹介します。
Label Anythingは、クラス毎に必要最小限の例で、複数のクラスにまたがる顕著な一般化性を示す。
包括的実験検証、特にCOCO-20i$ベンチマークにおける最先端の結果の達成は、Ravell Anythingの堅牢な一般化と柔軟性を裏付けるものです。
論文 参考訳(メタデータ) (2024-07-02T09:08:06Z) - Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation [72.47110803885235]
ゼロショットセマンティックセグメンテーションのための新しいフレームワークCascade-CLIPを提案する。
このフレームワークはCOCO-Stuff, Pascal-VOC, Pascal-Contextといったセグメンテーションベンチマークにおいて優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T08:32:51Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Boosting Semantic Segmentation from the Perspective of Explicit Class
Embeddings [19.997929884477628]
クラス埋め込みのメカニズムを探求し、クラスマスクに基づいてより明示的で意味のあるクラス埋め込みを生成することができるという知見を得る。
マルチステージ画像特徴との相互作用において,クラス埋め込みを明示的に獲得・拡張する新たなセグメンテーションパラダイムであるECENetを提案する。
ECENetはADE20Kデータセットよりもはるかに少ない計算コストでパフォーマンスを向上し、PASCAL-Contextデータセット上で新たな最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-24T16:16:10Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - A Joint Framework Towards Class-aware and Class-agnostic Alignment for
Few-shot Segmentation [11.47479526463185]
Few-shotのセグメンテーションは、いくつかの注釈付きサポートイメージが与えられた未確認クラスのオブジェクトをセグメントすることを目的としている。
既存のほとんどのメソッドは、クエリ機能を独立したサポートプロトタイプで縫い付け、混合機能をデコーダに供給することでクエリイメージを分割する。
セグメンテーションを容易にするために,より価値の高いクラス認識とクラス非依存アライメントガイダンスを組み合わせた共同フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-02T17:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。