論文の概要: Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2412.04533v1
- Date: Thu, 05 Dec 2024 17:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:24.379550
- Title: Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation
- Title(参考訳): Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation
- Authors: Yongkang Li, Tianheng Cheng, Wenyu Liu, Xinggang Wang,
- Abstract要約: オープン語彙セグメンテーションにおいてこれらの課題に対処するための単純かつ効果的な手法であるMask-Adapterを導入する。
提案手法では,提案マスクを直接使用するのに対し,提案マスクから意味的アクティベーションマップを抽出する。
Mask-Adapterは、マスクプーリングをプラグ・アンド・プレイ方式で、オープン語彙セグメンテーション手法にシームレスに統合する。
- 参考スコア(独自算出の注目度): 39.73550543404763
- License:
- Abstract: Recent open-vocabulary segmentation methods adopt mask generators to predict segmentation masks and leverage pre-trained vision-language models, e.g., CLIP, to classify these masks via mask pooling. Although these approaches show promising results, it is counterintuitive that accurate masks often fail to yield accurate classification results through pooling CLIP image embeddings within the mask regions. In this paper, we reveal the performance limitations of mask pooling and introduce Mask-Adapter, a simple yet effective method to address these challenges in open-vocabulary segmentation. Compared to directly using proposal masks, our proposed Mask-Adapter extracts semantic activation maps from proposal masks, providing richer contextual information and ensuring alignment between masks and CLIP. Additionally, we propose a mask consistency loss that encourages proposal masks with similar IoUs to obtain similar CLIP embeddings to enhance models' robustness to varying predicted masks. Mask-Adapter integrates seamlessly into open-vocabulary segmentation methods based on mask pooling in a plug-and-play manner, delivering more accurate classification results. Extensive experiments across several zero-shot benchmarks demonstrate significant performance gains for the proposed Mask-Adapter on several well-established methods. Notably, Mask-Adapter also extends effectively to SAM and achieves impressive results on several open-vocabulary segmentation datasets. Code and models are available at \url{https://github.com/hustvl/MaskAdapter}.
- Abstract(参考訳): 最近のオープンボキャブラリセグメンテーション手法では、セグメンテーションマスクを予測し、事前訓練された視覚言語モデル(例えばCLIP)を利用してマスクプーリングによってこれらのマスクを分類するマスクジェネレータを採用している。
これらのアプローチは有望な結果を示すが、正確なマスクがCLIPイメージをマスク領域内に埋め込むことで正確な分類結果を得ることができないのは直感的ではない。
本稿では,マスクプーリングの性能限界を明らかにし,オープン語彙セグメンテーションにおいてこれらの課題に対処するシンプルかつ効果的な手法であるMask-Adapterを導入する。
提案手法では,提案マスクを直接使用するのに対し,提案マスクから意味的アクティベーションマップを抽出し,よりリッチなコンテキスト情報を提供し,マスクとCLIPの整合性を確保する。
さらに、類似したIoUを持つ提案マスクに類似のCLIP埋め込みを求めるマスク整合性損失を提案し、予測された様々なマスクに対するモデルの堅牢性を高める。
Mask-Adapterは、マスクプーリングをプラグアンドプレイ方式で使用し、より正確な分類結果を提供するオープン語彙セグメンテーション手法にシームレスに統合する。
いくつかのゼロショットベンチマークに対する大規模な実験は、いくつかの確立された手法で提案されたMask-Adapterの性能向上を示す。
特に、Mask-AdapterはSAMに効果的に拡張し、いくつかのオープン語彙セグメンテーションデータセットで印象的な結果を得る。
コードとモデルは \url{https://github.com/hustvl/MaskAdapter} で公開されている。
関連論文リスト
- MaskCLIP++: A Mask-Based CLIP Fine-tuning Framework for Open-Vocabulary Image Segmentation [109.19165503929992]
オープン語彙画像のセグメンテーションはマスク生成器と視覚言語モデルとの相乗効果によって進歩している。
MaskCLIP++と呼ばれる新しい微調整フレームワークを提案し、このフレームワークは生成されたマスクの代わりにグラウンドトルースマスクを使用する。
我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文 参考訳(メタデータ) (2024-12-16T05:44:45Z) - Prompt-Guided Mask Proposal for Two-Stage Open-Vocabulary Segmentation [21.30568336073013]
オープン語彙セグメンテーション(open-vocabulary segmentation)の課題に取り組み、異なる環境における幅広いカテゴリのオブジェクトを識別する必要がある。
既存の方法はCLIPのようなマルチモーダルモデルを使うことが多い。
本稿では,PMP(Prompt-Guided Mask Proposal)を提案する。
論文 参考訳(メタデータ) (2024-12-13T17:22:50Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Maskomaly:Zero-Shot Mask Anomaly Segmentation [39.414333208208475]
Maskomaly と呼ばれる異常セグメンテーションのためのフレームワークを提案する。
マスクベースのセマンティックセグメンテーションネットワーク上に構築され、単純な推論時間後処理ステップを追加する。
SMIYC、RoadAnomaly、StreetHazardsの手法の上位結果を示す。
論文 参考訳(メタデータ) (2023-05-26T14:28:09Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Contrastive Context-Aware Learning for 3D High-Fidelity Mask Face
Presentation Attack Detection [103.7264459186552]
顔認識システムには、顔提示攻撃検出(PAD)が不可欠である。
ほとんどの既存の3DマスクPADベンチマークにはいくつかの欠点があります。
現実世界のアプリケーションとのギャップを埋めるために、大規模なハイファイアリティマスクデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-13T12:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。