論文の概要: Plug-and-Play, Dense-Label-Free Extraction of Open-Vocabulary Semantic
Segmentation from Vision-Language Models
- arxiv url: http://arxiv.org/abs/2311.17095v1
- Date: Tue, 28 Nov 2023 06:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 00:06:19.946415
- Title: Plug-and-Play, Dense-Label-Free Extraction of Open-Vocabulary Semantic
Segmentation from Vision-Language Models
- Title(参考訳): 視覚言語モデルからの開語彙セマンティックセマンティックセグメンテーションのプラグアンドプレイ自由抽出
- Authors: Luo Jiayun, Siddhesh Khandelwal, Leonid Sigal, Boyang Li
- Abstract要約: この課題に対して,COCO-OVSS (Plug-and-Play Open-Language-Vocabulary Semantic) を提案する。
OVSSは、直接テキストイメージのクロスアテンションを持つVLMと、画像テキストマッチング損失を利用してセマンティックセグメンテーションを生成する。
モデルが最も注意を払っているパッチを反復的にドロップすることで、セグメンテーションマスクの全範囲をよりよく解決することができる。
- 参考スコア(独自算出の注目度): 42.04986836450004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From an enormous amount of image-text pairs, large-scale vision-language
models (VLMs) learn to implicitly associate image regions with words, which is
vital for tasks such as image captioning and visual question answering.
However, leveraging such pre-trained models for open-vocabulary semantic
segmentation remains a challenge. In this paper, we propose a simple, yet
extremely effective, training-free technique, Plug-and-Play Open-Vocabulary
Semantic Segmentation (PnP-OVSS) for this task. PnP-OVSS leverages a VLM with
direct text-to-image cross-attention and an image-text matching loss to produce
semantic segmentation. However, cross-attention alone tends to over-segment,
whereas cross-attention plus GradCAM tend to under-segment. To alleviate this
issue, we introduce Salience Dropout; by iteratively dropping patches that the
model is most attentive to, we are able to better resolve the entire extent of
the segmentation mask. Compared to existing techniques, the proposed method
does not require any neural network training and performs hyperparameter tuning
without the need for any segmentation annotations, even for a validation set.
PnP-OVSS demonstrates substantial improvements over a comparable baseline
(+29.4% mIoU on Pascal VOC, +13.2% mIoU on Pascal Context, +14.0% mIoU on MS
COCO, +2.4% mIoU on COCO Stuff) and even outperforms most baselines that
conduct additional network training on top of pretrained VLMs.
- Abstract(参考訳): 膨大な量の画像テキストペアから、大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学習する。
しかし、そのような事前訓練されたモデルをオープン語彙セマンティックセグメンテーションに活用することは依然として課題である。
本稿では,この課題に対してpnp-ovss (plug-and-play open-vocabulary semantic segmentation) を提案する。
PnP-OVSS は VLM を利用して直接テキスト対イメージのクロスアテンションと画像-テキストマッチングの損失を利用してセマンティックセグメンテーションを生成する。
しかし、クロスアテンションだけは過剰なセグメントの傾向があり、クロスアテンションプラスGradCAMは低セグメントの傾向にある。
この問題を緩和するために、Salience Dropoutを導入し、モデルが最も注意を払っているパッチを反復的にドロップすることで、セグメンテーションマスクの全範囲をよりよく解決する。
既存の手法と比較して、提案手法はニューラルネットワークのトレーニングを必要とせず、バリデーションセットであってもセグメンテーションアノテーションを必要とせずにハイパーパラメータチューニングを実行する。
PnP-OVSSは、同等のベースライン(Pascal VOCでは+29.4% mIoU、Pascal Contextでは+13.2% mIoU、MS COCOでは+14.0% mIoU、COCO Stuffでは+2.4% mIoU)を大幅に改善し、事前訓練されたVLM上で追加のネットワークトレーニングを行うベースラインよりも優れている。
関連論文リスト
- Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor [19.620999589227996]
マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。
本稿では,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを提案する。
実験結果から,本手法はトレーニング不要データだけでなく,何百万ものデータサンプルを微調整したデータよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-12T19:00:04Z) - Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using
Stable Diffusion [25.772289652928528]
アノテーションを使わずに任意のものをゼロショットでセグメント化できるモデルを提案する。
注意マップ間のKLのばらつきを計測し,それらを有効なセグメンテーションマスクにマージする,シンプルで効果的な反復的マージ手法を提案する。
COCO-Stuff-27では,従来の教師なしゼロショットSOTA法を26%,IoU平均17%で上回っている。
論文 参考訳(メタデータ) (2023-08-23T23:44:44Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文 参考訳(メタデータ) (2023-01-22T13:10:05Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。