論文の概要: MVP-SEG: Multi-View Prompt Learning for Open-Vocabulary Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2304.06957v1
- Date: Fri, 14 Apr 2023 07:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 14:34:59.247867
- Title: MVP-SEG: Multi-View Prompt Learning for Open-Vocabulary Semantic
Segmentation
- Title(参考訳): MVP-SEG:オープン語彙セマンティックセグメンテーションのためのマルチビュープロンプト学習
- Authors: Jie Guo, Qimeng Wang, Yan Gao, Xiaolong Jiang, Xu Tang, Yao Hu,
Baochang Zhang
- Abstract要約: まず、画像画素CLIP機能適応の必要性を実証し、次に、多視点プロンプト学習(MVP-SEG)を提供する。
MVP-SEGは画像画素適応の実現と開語彙セマンティックセマンティックセグメンテーションの解決に有効なソリューションである。
実験により、観察されたカテゴリから学習したマルチビュープロンプトは、目に見えないカテゴリに強く一般化されていることが示された。
- 参考スコア(独自算出の注目度): 44.28355088831045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP (Contrastive Language-Image Pretraining) is well-developed for
open-vocabulary zero-shot image-level recognition, while its applications in
pixel-level tasks are less investigated, where most efforts directly adopt CLIP
features without deliberative adaptations. In this work, we first demonstrate
the necessity of image-pixel CLIP feature adaption, then provide Multi-View
Prompt learning (MVP-SEG) as an effective solution to achieve image-pixel
adaptation and to solve open-vocabulary semantic segmentation. Concretely,
MVP-SEG deliberately learns multiple prompts trained by our Orthogonal
Constraint Loss (OCLoss), by which each prompt is supervised to exploit CLIP
feature on different object parts, and collaborative segmentation masks
generated by all prompts promote better segmentation. Moreover, MVP-SEG
introduces Global Prompt Refining (GPR) to further eliminate class-wise
segmentation noise. Experiments show that the multi-view prompts learned from
seen categories have strong generalization to unseen categories, and MVP-SEG+
which combines the knowledge transfer stage significantly outperforms previous
methods on several benchmarks. Moreover, qualitative results justify that
MVP-SEG does lead to better focus on different local parts.
- Abstract(参考訳): CLIP(Contrastive Language- Image Pretraining)は、ゼロショット画像レベルのオープンボキャブラリ認識のためによく開発されているが、ピクセルレベルのタスクへの応用はあまり検討されていない。
本稿では、まず、画像画素CLIP機能適応の必要性を実証し、画像画素適応を実現し、オープン語彙セマンティックセマンティックセマンティクスを解決するための効果的なソリューションとして、多視点プロンプト学習(MVP-SEG)を提供する。
具体的には、mvp-segが故意に複数のプロンプトを学習し、それぞれのプロンプトが異なるオブジェクト部分のクリップ機能を利用するように監督され、すべてのプロンプトによって生成された協調的なセグメンテーションマスクがより良いセグメンテーションを促進する。
さらに、MVP-SEGは、クラスワイドセグメンテーションノイズをさらに排除するために、GPR(Global Prompt Refining)を導入している。
実験により, 対象カテゴリーから学習した多視点プロンプトは, 未確認カテゴリに対して強い一般化を示し, 知識伝達の段階を組み合わしたMVP-SEG+は, いくつかのベンチマークにおいて, 従来の手法よりも有意に優れていた。
さらに質的な結果は、MVP-SEGが様々な局所的な部分に集中するようになることを正当化します。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Semantic Segmentation [33.67313662538398]
オープン語彙セマンティックセマンティックセグメンテーションのためのマルチレゾリューション・トレーニング・フレームワークを提案する。
MROVSegはスライディングウィンドウを使用して高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズと一致する。
オープン語彙セマンティックセグメンテーションベンチマークにおけるMROVSegの優位性を実証する。
論文 参考訳(メタデータ) (2024-08-27T04:45:53Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - Medical Visual Prompting (MVP): A Unified Framework for Versatile and High-Quality Medical Image Segmentation [15.460598807078751]
自然言語処理(NLP)の概念を事前学習・促進する医用ビジュアルプロンプト(MVP)フレームワークを提案する。
MVPにより、セグメンテーションネットワークは、情報を促進する形状をよりよく学習し、異なるタスク間での相互学習を促進することができる。
この新しい枠組みは、より少ないパラメータで性能を向上し、様々な医療課題における病変領域の正確なセグメンテーションに有意な可能性を秘めている。
論文 参考訳(メタデータ) (2024-04-01T14:06:48Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。