論文の概要: A Language-Guided Benchmark for Weakly Supervised Open Vocabulary
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2302.14163v1
- Date: Mon, 27 Feb 2023 21:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 18:50:30.989894
- Title: A Language-Guided Benchmark for Weakly Supervised Open Vocabulary
Semantic Segmentation
- Title(参考訳): 弱教師付きオープン語彙意味セグメンテーションのための言語誘導ベンチマーク
- Authors: Prashant Pandey, Mustafa Chasmai, Monish Natarajan, Brejesh Lall
- Abstract要約: 本稿では,ZSS,FSS,クロスデータセットのセグメンテーションを新しいクラスで実行可能な,弱い教師付きOVSSパイプラインを提案する。
提案したパイプラインは、弱一般化ゼロショットと弱Few-Shotセマンティックセマンティックセグメンテーションをそれぞれ39と3のmIOUポイントで上回っている。
- 参考スコア(独自算出の注目度): 10.054960979867584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Increasing attention is being diverted to data-efficient problem settings
like Open Vocabulary Semantic Segmentation (OVSS) which deals with segmenting
an arbitrary object that may or may not be seen during training. The closest
standard problems related to OVSS are Zero-Shot and Few-Shot Segmentation (ZSS,
FSS) and their Cross-dataset variants where zero to few annotations are needed
to segment novel classes. The existing FSS and ZSS methods utilize fully
supervised pixel-labelled seen classes to segment unseen classes. Pixel-level
labels are hard to obtain, and using weak supervision in the form of
inexpensive image-level labels is often more practical. To this end, we propose
a novel unified weakly supervised OVSS pipeline that can perform ZSS, FSS and
Cross-dataset segmentation on novel classes without using pixel-level labels
for either the base (seen) or the novel (unseen) classes in an inductive
setting. We propose Weakly-Supervised Language-Guided Segmentation Network
(WLSegNet), a novel language-guided segmentation pipeline that i) learns
generalizable context vectors with batch aggregates (mean) to map class prompts
to image features using frozen CLIP (a vision-language model) and ii) decouples
weak ZSS/FSS into weak semantic segmentation and Zero-Shot segmentation. The
learned context vectors avoid overfitting on seen classes during training and
transfer better to novel classes during testing. WLSegNet avoids fine-tuning
and the use of external datasets during training. The proposed pipeline beats
existing methods for weak generalized Zero-Shot and weak Few-Shot semantic
segmentation by 39 and 3 mIOU points respectively on PASCAL VOC and weak
Few-Shot semantic segmentation by 5 mIOU points on MS COCO. On a harder setting
of 2-way 1-shot weak FSS, WLSegNet beats the baselines by 13 and 22 mIOU points
on PASCAL VOC and MS COCO, respectively.
- Abstract(参考訳): Open Vocabulary Semantic Segmentation (OVSS)のような、トレーニング中に見られるかもしれない、あるいは見られない任意のオブジェクトのセグメンテーションを扱うデータ効率の問題設定に注意が向けられている。
OVSSに関する最も近い標準問題は、Zero-ShotとFew-Shot Segmentation (ZSS, FSS) と、新しいクラスをセグメントするためにゼロから少数アノテーションを必要とするクロスデータセットの亜種である。
既存の FSS と ZSS の手法は、完全に教師付きされたピクセルラベリングクラスを使用して、見えないクラスを分割する。
ピクセルレベルラベルは入手が困難であり、安価な画像レベルラベルの形で弱い監督を用いる方がより実用的であることが多い。
そこで本研究では,新しいクラスでzss,fss,cross-datasetのセグメンテーションを,基本(seen)または新しい(unseen)クラスのいずれかのピクセルレベルラベルを使用せずに実行可能にする,新しい弱教師付きovsパイプラインを提案する。
Weakly-Supervised Language-Guided Segmentation Network (WLSegNet)を提案する。
i) クラスプロンプトを凍結したCLIP(ビジョン言語モデル)を用いて画像特徴にマップし、バッチ集約(平均)を伴う一般化可能なコンテキストベクトルを学習する。
ii)弱いZSS/FSSを弱いセマンティックセグメンテーションとゼロショットセグメンテーションに分離する。
学習されたコンテキストベクトルは、トレーニング中に見たクラスの過度な適合を回避し、テスト中に新しいクラスに移行する。
WLSegNetは、トレーニング中に外部データセットの微調整や使用を避ける。
提案したパイプラインは, PASCAL VOC上の弱一般化Zero-Shotと弱Few-Shotセマンティックセマンティックセマンティクスの39点と弱Few-Shotセマンティクスの39点と弱Few-Shotセマンティクスセマンティクスセマンティクスの5mIOUをそれぞれ打ち勝つ。
2方向1ショットの弱いFSSでは、WLSegNetはPASCAL VOCとMS COCOの13mIOU点と22mIOU点にそれぞれ打ち勝つ。
関連論文リスト
- Generalized Category Discovery in Semantic Segmentation [43.99230778597973]
本稿では,セマンティックにおける一般化カテゴリー発見 (Generalized Category Discovery in Semantic, GCDSS) という新しい設定について検討する。
GCDSSは、ラベル付きベースクラスのセットから事前の知識に基づいてラベル付きイメージをセグメントすることを目的としている。
セマンティックにおける新規カテゴリー発見(NCDSS)とは対照的に、各未ラベル画像に少なくとも1つの新しいクラスが存在するという前提条件はない。
論文 参考訳(メタデータ) (2023-11-20T04:11:16Z) - Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation
and Beyond [0.0]
視覚的およびテキスト的事前案内マスク集合ネットワーク(PGMA-Net)を提案する。
偏見を緩和するためにクラス非依存のマスクアセンブリープロセスを採用し、様々なタスクをアフィニティを通じて事前を組み立てることで統一的な方法で定式化する。
mIoUは$textPASCAL-5i$で7.6ドル、$textCOCO-20i$で59.4ドルである。
論文 参考訳(メタデータ) (2023-08-15T02:46:49Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - Decoupling Zero-Shot Semantic Segmentation [46.55494691004304]
ゼロショットセマンティックセグメンテーション(ZS3)は、トレーニングで見たことのない新しいカテゴリをセグメンテーションすることを目的としている。
本稿では,ZegFormerと呼ばれる,シンプルで効果的なゼロショットセマンティックセマンティックセマンティクスモデルを提案する。
論文 参考訳(メタデータ) (2021-12-15T06:21:47Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Zero-Shot Semantic Segmentation via Spatial and Multi-Scale Aware Visual
Class Embedding [0.0]
言語モデルなしゼロショットセマンティックセマンティックセマンティクスフレームワークSM-VCENet(Spatial and Multi-scale aware Visual Class Embedding Network)を提案する。
実験では、SM-VCENetはゼロショットセマンティックセマンティックセグメンテーションを相対的なマージンで上回ります。
論文 参考訳(メタデータ) (2021-11-30T07:39:19Z) - Few-shot 3D Point Cloud Semantic Segmentation [138.80825169240302]
本稿では,新しい注意型マルチプロトタイプトランスダクティブ・ショットポイント・クラウドセマンティックセマンティック・セマンティクス法を提案する。
提案手法は,雲のセマンティックセマンティックセグメンテーション設定の違いによるベースラインに比べて,顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2020-06-22T08:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。