論文の概要: MaskCLIP++: A Mask-Based CLIP Fine-tuning Framework for Open-Vocabulary Image Segmentation
- arxiv url: http://arxiv.org/abs/2412.11464v2
- Date: Tue, 24 Dec 2024 04:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:52:35.355563
- Title: MaskCLIP++: A Mask-Based CLIP Fine-tuning Framework for Open-Vocabulary Image Segmentation
- Title(参考訳): MaskCLIP++: オープン語彙画像セグメンテーションのためのマスクベースのCLIPファインチューニングフレームワーク
- Authors: Quan-Sheng Zeng, Yunheng Li, Daquan Zhou, Guanbin Li, Qibin Hou, Ming-Ming Cheng,
- Abstract要約: オープン語彙画像のセグメンテーションはマスク生成器と視覚言語モデルとの相乗効果によって進歩している。
MaskCLIP++と呼ばれる新しい微調整フレームワークを提案し、このフレームワークは生成されたマスクの代わりにグラウンドトルースマスクを使用する。
我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
- 参考スコア(独自算出の注目度): 109.19165503929992
- License:
- Abstract: Open-vocabulary image segmentation has been advanced through the synergy between mask generators and vision-language models like Contrastive Language-Image Pre-training (CLIP). Previous approaches focus on generating masks while aligning mask features with text embeddings during training. In this paper, we observe that relying on generated low-quality masks can weaken the alignment of vision and language in regional representations. This motivates us to present a new fine-tuning framework, named MaskCLIP++, which uses ground-truth masks instead of generated masks to enhance the mask classification capability of CLIP. Due to the limited diversity of image segmentation datasets with mask annotations, we propose incorporating a consistency alignment constraint during fine-tuning, which alleviates categorical bias toward the fine-tuning dataset. After low-cost fine-tuning, combining with the mask generator in previous state-of-the-art mask-based open vocabulary segmentation methods, we achieve performance improvements of +1.7, +2.3, +2.1, +3.1, and +0.3 mIoU on the A-847, PC-459, A-150, PC-59, and PAS-20 datasets, respectively. Code is released at https://github.com/HVision-NKU/MaskCLIPpp .
- Abstract(参考訳): オープンボキャブラリ画像セグメンテーションは、マスクジェネレータとContrastive Language- Image Pre-training (CLIP)のような視覚言語モデルとの相乗効果によって進歩している。
以前のアプローチでは、トレーニング中にマスク機能とテキスト埋め込みを調整しながらマスクを生成することに重点を置いていた。
本稿では,低品質マスクの生成に依存することで,地域表現における視覚と言語のアライメントが弱まることを観察する。
これは、CLIPのマスク分類機能を強化するために、生成されたマスクの代わりにグラウンドトルースマスクを使用するMaskCLIP++という、新しい微調整フレームワークを提示する動機となります。
マスクアノテーションを用いた画像セグメンテーションデータセットの多様性が限られているため、微調整中に整合性制約を組み込むことを提案し、微調整データセットに対する分類バイアスを軽減する。
A-847, PC-459, A-150, PC-59, PAS-20データセット上で, +1.7, +2.3, +2.1, +3.1, +0.3 mIoUの性能向上を実現した。
コードはhttps://github.com/HVision-NKU/MaskCLIPppで公開されている。
関連論文リスト
- Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation [39.73550543404763]
オープン語彙セグメンテーションにおいてこれらの課題に対処するための単純かつ効果的な手法であるMask-Adapterを導入する。
提案手法では,提案マスクを直接使用するのに対し,提案マスクから意味的アクティベーションマップを抽出する。
Mask-Adapterは、マスクプーリングをプラグ・アンド・プレイ方式で、オープン語彙セグメンテーション手法にシームレスに統合する。
論文 参考訳(メタデータ) (2024-12-05T17:42:37Z) - MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment [53.235290505274676]
CLIPのような大規模視覚言語モデルはセマンティックセグメンテーションのパフォーマンスを向上させることができる。
マスクレベルの視覚言語アライメントを利用した新しいフレームワークであるMTA-CLIPを紹介する。
MTA-CLIPは最先端を達成し、ベンチマークデータセットで平均2.8%と1.3%の先行研究を上回っている。
論文 参考訳(メタデータ) (2024-07-31T14:56:42Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Learning Mask-aware CLIP Representations for Zero-Shot Segmentation [120.97144647340588]
Mask-awareProposals CLIP (IP-CLIP) は任意の数の画像とマスクの提案を同時に処理するために提案されている。
マスク認識損失と自己蒸留損失はIP-CLIPを微調整するように設計されており、CLIPが異なるマスク提案に応答することを保証している。
我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-30T03:27:31Z) - Automatic Generation of Semantic Parts for Face Image Synthesis [7.728916126705043]
セグメンテーションマスクにおけるオブジェクトクラスの形状を自動操作または生成する問題に対処するネットワークアーキテクチャについて述べる。
提案モデルでは,各クラス埋め込みを独立して編集可能な潜在空間にマスクのクラスワイズを埋め込むことができる。
本稿では,Celeb-MaskHQデータセットの定量的および定性的な結果について報告する。
論文 参考訳(メタデータ) (2023-07-11T15:01:42Z) - CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation [104.5033800500497]
画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。
単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
論文 参考訳(メタデータ) (2022-12-04T08:53:42Z) - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [45.81698881151867]
Open-vocabulary semantic segmentationは、トレーニング中に見られなかったかもしれないテキスト記述に従って、イメージをセマンティック領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、次にCLIPなどの事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
マスクされた画像領域とその対応するテキスト記述の集合上でCLIPを微調整する。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の状態より+8.5%高い。
論文 参考訳(メタデータ) (2022-10-09T02:57:32Z) - Open-Vocabulary Universal Image Segmentation with MaskCLIP [24.74805434602145]
我々は、新しいコンピュータビジョンタスク、オープン語彙のユニバーサルイメージセグメンテーションに取り組む。
トレーニング済みのCLIPモデルを直接適用することで,まずベースライン手法を構築する。
次に, MaskCLIP Visual を用いた Transformer ベースのアプローチである MaskCLIP を開発した。
論文 参考訳(メタデータ) (2022-08-18T17:55:37Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。