Fugu-MT 論文翻訳(概要): Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation and Beyond

論文の概要: Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation and Beyond

arxiv url: http://arxiv.org/abs/2308.07539v1
Date: Tue, 15 Aug 2023 02:46:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-16 14:08:37.290230
Title: Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation and Beyond
Title（参考訳）: 少数ショットセグメンテーションのための視覚的およびテキスト的事前マスクアセンブラ
Authors: Chen Shuai, Meng Fanman, Zhang Runtong, Qiu Heqian, Li Hongliang, Wu Qingbo, Xu Linfeng
Abstract要約: 視覚的およびテキスト的事前案内マスク集合ネットワーク(PGMA-Net)を提案する。偏見を緩和するためにクラス非依存のマスクアセンブリープロセスを採用し、様々なタスクをアフィニティを通じて事前を組み立てることで統一的な方法で定式化する。 mIoUは$textPASCAL-5i$で7.6ドル、$textCOCO-20i$で59.4ドルである。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Few-shot segmentation (FSS) aims to segment the novel classes with a few annotated images. Due to CLIP's advantages of aligning visual and textual information, the integration of CLIP can enhance the generalization ability of FSS model. However, even with the CLIP model, the existing CLIP-based FSS methods are still subject to the biased prediction towards base classes, which is caused by the class-specific feature level interactions. To solve this issue, we propose a visual and textual Prior Guided Mask Assemble Network (PGMA-Net). It employs a class-agnostic mask assembly process to alleviate the bias, and formulates diverse tasks into a unified manner by assembling the prior through affinity. Specifically, the class-relevant textual and visual features are first transformed to class-agnostic prior in the form of probability map. Then, a Prior-Guided Mask Assemble Module (PGMAM) including multiple General Assemble Units (GAUs) is introduced. It considers diverse and plug-and-play interactions, such as visual-textual, inter- and intra-image, training-free, and high-order ones. Lastly, to ensure the class-agnostic ability, a Hierarchical Decoder with Channel-Drop Mechanism (HDCDM) is proposed to flexibly exploit the assembled masks and low-level features, without relying on any class-specific information. It achieves new state-of-the-art results in the FSS task, with mIoU of $77.6$ on $\text{PASCAL-}5^i$ and $59.4$ on $\text{COCO-}20^i$ in 1-shot scenario. Beyond this, we show that without extra re-training, the proposed PGMA-Net can solve bbox-level and cross-domain FSS, co-segmentation, zero-shot segmentation (ZSS) tasks, leading an any-shot segmentation framework.
Abstract（参考訳）: Few-shot segmentation (FSS) は、いくつかの注釈付き画像で新しいクラスを分類することを目的としている。 CLIPの利点は、視覚情報とテキスト情報の整合性にあるため、CLIPの統合は、FSSモデルの一般化能力を高めることができる。しかし、CLIPモデルでさえ、既存のCLIPベースのFSSメソッドは、クラス固有の特徴レベルの相互作用によって引き起こされるベースクラスに対するバイアス付き予測の対象となっている。そこで本稿では,視覚およびテキストに先行したマスクアセンブラネットワーク(pgma-net)を提案する。バイアスを軽減するためにクラス非依存のマスク組立プロセスを採用し、親和性を通じて前者を組み立てることで多様なタスクを統一的な方法で定式化する。特に、クラス関係のテキスト的および視覚的特徴は、まず確率写像の形で、クラス非依存に変換される。次に、複数のGAU(General Assemble Units)を含むPGMAM(Presideed-Guided Mask Assemble Module)を導入する。視覚・テクスチュアル、インター・イントラ・イメージ、トレーニングフリー、高階の対話など、多種多様なプラグ・アンド・プレイの相互作用を考慮に入れている。最後に, 階層型デコーダ(HDCDM)を提案し, 組立マスクと低レベル特徴を, クラス固有の情報に頼らずに柔軟に活用する。 1ショットシナリオでは、mIoUは$7.6$ on $\text{PASCAL-}5^i$と$59.4$ on $\text{COCO-}20^i$である。これ以外にも,提案するPGMA-Netは,余分なトレーニングを伴わずに,bboxレベルとクロスドメインのFSS,コセグメンテーション,ゼロショットセグメンテーション(ZSS)タスクを解き,非ショットセグメンテーションフレームワークを導くことができることを示す。

関連論文リスト

DSV-LFS: Unifying LLM-Driven Semantic Cues with Visual Features for Robust Few-Shot Segmentation [2.7624021966289605]
Few-shot semantic segmentation (FSS) は、限定されたラベル付き例のみを使用して、モデルが新規/未使用のオブジェクトクラスをセグメンテーションできるようにすることを目的としている。本稿では,大規模言語モデル(LLM)を用いて,汎用クラス意味情報をクエリ画像に適用する新しいフレームワークを提案する。我々のフレームワークは、様々なシナリオにまたがって、新しいクラスへの高度な一般化と堅牢性を示す、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-06T01:42:28Z)
Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-10-09T15:02:28Z)
Prompt-and-Transfer: Dynamic Class-aware Enhancement for Few-shot Segmentation [15.159690685421586]
本稿では、人間の視覚知覚パターンを模倣し、プロンプト・アンド・トランスファー(PAT)と呼ばれる、新しい強力なプロンプト駆動方式を提案する。 PATは、現在のタスクで関心のあるオブジェクト(ターゲットクラス)にフォーカスするためにエンコーダをチューニングするための動的クラス認識プロンプトパラダイムを構築します。驚いたことに、PATは標準のFSS、クロスドメインのFSS、Wak-label、Zero-shot-labelを含む4つのタスクで競合するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-09-16T15:24:26Z)
Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。 UniFSSは最先端の手法よりも優れています。
論文参考訳（メタデータ） (2024-07-16T08:41:01Z)
Label Anything: Multi-Class Few-Shot Semantic Segmentation with Visual Prompts [10.262029691744921]
少ショットセマンティックセグメンテーション(FSS)用に設計された革新的なニューラルネットワークアーキテクチャであるLabel Anythingを紹介します。 Label Anythingは、クラス毎に必要最小限の例で、複数のクラスにまたがる顕著な一般化性を示す。包括的実験検証、特にCOCO-20i$ベンチマークにおける最先端の結果の達成は、Ravell Anythingの堅牢な一般化と柔軟性を裏付けるものです。
論文参考訳（メタデータ） (2024-07-02T09:08:06Z)
Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation [72.47110803885235]
ゼロショットセマンティックセグメンテーションのための新しいフレームワークCascade-CLIPを提案する。このフレームワークはCOCO-Stuff, Pascal-VOC, Pascal-Contextといったセグメンテーションベンチマークにおいて優れたゼロショット性能を実現する。
論文参考訳（メタデータ） (2024-06-02T08:32:51Z)
CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文参考訳（メタデータ） (2024-03-21T11:58:50Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
Boosting Semantic Segmentation from the Perspective of Explicit Class Embeddings [19.997929884477628]
クラス埋め込みのメカニズムを探求し、クラスマスクに基づいてより明示的で意味のあるクラス埋め込みを生成することができるという知見を得る。マルチステージ画像特徴との相互作用において,クラス埋め込みを明示的に獲得・拡張する新たなセグメンテーションパラダイムであるECENetを提案する。 ECENetはADE20Kデータセットよりもはるかに少ない計算コストでパフォーマンスを向上し、PASCAL-Contextデータセット上で新たな最先端結果を達成する。
論文参考訳（メタデータ） (2023-08-24T16:16:10Z)
Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文参考訳（メタデータ） (2023-02-23T18:58:28Z)
CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T06:23:59Z)
A Joint Framework Towards Class-aware and Class-agnostic Alignment for Few-shot Segmentation [11.47479526463185]
Few-shotのセグメンテーションは、いくつかの注釈付きサポートイメージが与えられた未確認クラスのオブジェクトをセグメントすることを目的としている。既存のほとんどのメソッドは、クエリ機能を独立したサポートプロトタイプで縫い付け、混合機能をデコーダに供給することでクエリイメージを分割する。セグメンテーションを容易にするために,より価値の高いクラス認識とクラス非依存アライメントガイダンスを組み合わせた共同フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-02T17:33:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。