論文の概要: MVP-SEG: Multi-View Prompt Learning for Open-Vocabulary Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2304.06957v1
- Date: Fri, 14 Apr 2023 07:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 14:34:59.247867
- Title: MVP-SEG: Multi-View Prompt Learning for Open-Vocabulary Semantic
Segmentation
- Title(参考訳): MVP-SEG:オープン語彙セマンティックセグメンテーションのためのマルチビュープロンプト学習
- Authors: Jie Guo, Qimeng Wang, Yan Gao, Xiaolong Jiang, Xu Tang, Yao Hu,
Baochang Zhang
- Abstract要約: まず、画像画素CLIP機能適応の必要性を実証し、次に、多視点プロンプト学習(MVP-SEG)を提供する。
MVP-SEGは画像画素適応の実現と開語彙セマンティックセマンティックセグメンテーションの解決に有効なソリューションである。
実験により、観察されたカテゴリから学習したマルチビュープロンプトは、目に見えないカテゴリに強く一般化されていることが示された。
- 参考スコア(独自算出の注目度): 44.28355088831045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP (Contrastive Language-Image Pretraining) is well-developed for
open-vocabulary zero-shot image-level recognition, while its applications in
pixel-level tasks are less investigated, where most efforts directly adopt CLIP
features without deliberative adaptations. In this work, we first demonstrate
the necessity of image-pixel CLIP feature adaption, then provide Multi-View
Prompt learning (MVP-SEG) as an effective solution to achieve image-pixel
adaptation and to solve open-vocabulary semantic segmentation. Concretely,
MVP-SEG deliberately learns multiple prompts trained by our Orthogonal
Constraint Loss (OCLoss), by which each prompt is supervised to exploit CLIP
feature on different object parts, and collaborative segmentation masks
generated by all prompts promote better segmentation. Moreover, MVP-SEG
introduces Global Prompt Refining (GPR) to further eliminate class-wise
segmentation noise. Experiments show that the multi-view prompts learned from
seen categories have strong generalization to unseen categories, and MVP-SEG+
which combines the knowledge transfer stage significantly outperforms previous
methods on several benchmarks. Moreover, qualitative results justify that
MVP-SEG does lead to better focus on different local parts.
- Abstract(参考訳): CLIP(Contrastive Language- Image Pretraining)は、ゼロショット画像レベルのオープンボキャブラリ認識のためによく開発されているが、ピクセルレベルのタスクへの応用はあまり検討されていない。
本稿では、まず、画像画素CLIP機能適応の必要性を実証し、画像画素適応を実現し、オープン語彙セマンティックセマンティックセマンティクスを解決するための効果的なソリューションとして、多視点プロンプト学習(MVP-SEG)を提供する。
具体的には、mvp-segが故意に複数のプロンプトを学習し、それぞれのプロンプトが異なるオブジェクト部分のクリップ機能を利用するように監督され、すべてのプロンプトによって生成された協調的なセグメンテーションマスクがより良いセグメンテーションを促進する。
さらに、MVP-SEGは、クラスワイドセグメンテーションノイズをさらに排除するために、GPR(Global Prompt Refining)を導入している。
実験により, 対象カテゴリーから学習した多視点プロンプトは, 未確認カテゴリに対して強い一般化を示し, 知識伝達の段階を組み合わしたMVP-SEG+は, いくつかのベンチマークにおいて, 従来の手法よりも有意に優れていた。
さらに質的な結果は、MVP-SEGが様々な局所的な部分に集中するようになることを正当化します。
関連論文リスト
- UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World
Understanding [93.45067274442881]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一された多粒性学習フレームワークを開発し、異なるレベルの詳細で多目的知覚能力を持つモデルを同時に強化する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic
Segmentation [21.92803192833741]
画像からピクセルへのCLIPの適応性を改善する一段階アプローチであるSPT-SEGを提案する。
具体的には、スペクトルプロンプトチューニング(SPT)を導入し、CLIP視覚エンコーダの浅い層にスペクトルプロンプトを組み込む。
我々は、最先端のアプローチよりもメソッドが優れていることを実証し、すべてのクラスでうまく機能し、特に目に見えないクラスを扱うのに優れています。
論文 参考訳(メタデータ) (2023-12-20T04:27:13Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [76.89733635856918]
一般化参照表現(GRES)問題に対処する汎用視覚アシスタント(GSVA)を提案する。
GSVAは[SEG]トークンを再利用し、セグメンテーションモデルを複数のマスク参照を同時にサポートするように促し、革新的にnullターゲットを明示的に拒否する[REJ]トークンを生成することを学習する。
GRES問題の解決におけるGSVAの有効性を検証する実験は、GRESベンチマークgRefCOCOデータセットに注目すべき拡張点と、新たな記録を設定している。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [38.63127343365129]
本稿では,新しいコスト集約手法を用いて,画像テキスト類似度マップ,すなわちコストマップを最適化する代替手法を提案する。
当社のフレームワーク,すなわちCAT-Segは,すべてのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。