論文の概要: LarvSeg: Exploring Image Classification Data For Large Vocabulary Semantic Segmentation via Category-wise Attentive Classifier
- arxiv url: http://arxiv.org/abs/2501.06862v1
- Date: Sun, 12 Jan 2025 16:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:17.826254
- Title: LarvSeg: Exploring Image Classification Data For Large Vocabulary Semantic Segmentation via Category-wise Attentive Classifier
- Title(参考訳): LarvSeg:カテゴリワイド注意分類器による大語彙セマンティックセマンティックセマンティックセマンティック分類のための画像分類データの探索
- Authors: Haojun Yu, Di Dai, Ziwei Zhao, Di He, Han Hu, Liwei Wang,
- Abstract要約: 本稿ではLarvSegと呼ばれる新しい大語彙セマンティックセマンティックセマンティクスフレームワークを提案する。
初めて、ImageNet21Kの助けを借りて、21Kカテゴリのセマンティックセマンティックセマンティックセマンティクスモデルを提供する。
- 参考スコア(独自算出の注目度): 38.75685568624425
- License:
- Abstract: Scaling up the vocabulary of semantic segmentation models is extremely challenging because annotating large-scale mask labels is labour-intensive and time-consuming. Recently, language-guided segmentation models have been proposed to address this challenge. However, their performance drops significantly when applied to out-of-distribution categories. In this paper, we propose a new large vocabulary semantic segmentation framework, called LarvSeg. Different from previous works, LarvSeg leverages image classification data to scale the vocabulary of semantic segmentation models as large-vocabulary classification datasets usually contain balanced categories and are much easier to obtain. However, for classification tasks, the category is image-level, while for segmentation we need to predict the label at pixel level. To address this issue, we first propose a general baseline framework to incorporate image-level supervision into the training process of a pixel-level segmentation model, making the trained network perform semantic segmentation on newly introduced categories in the classification data. We then observe that a model trained on segmentation data can group pixel features of categories beyond the training vocabulary. Inspired by this finding, we design a category-wise attentive classifier to apply supervision to the precise regions of corresponding categories to improve the model performance. Extensive experiments demonstrate that LarvSeg significantly improves the large vocabulary semantic segmentation performance, especially in the categories without mask labels. For the first time, we provide a 21K-category semantic segmentation model with the help of ImageNet21K. The code is available at https://github.com/HaojunYu1998/large_voc_seg.
- Abstract(参考訳): 意味的セグメンテーションモデルの語彙を拡大することは、大規模なマスクラベルの注釈付けが労働集約的で時間を要するため、非常に難しい。
近年,この課題に対処するために言語誘導セグメンテーションモデルが提案されている。
しかし、アウト・オブ・ディストリビューション・カテゴリに適用した場合、パフォーマンスは大幅に低下する。
本稿ではLarvSegと呼ばれる大規模語彙セマンティックセグメンテーションフレームワークを提案する。
以前の研究と異なり、LarvSegは画像分類データを利用してセマンティックセグメンテーションモデルの語彙を拡大する。
しかし、分類タスクでは、カテゴリは画像レベルであり、セグメンテーションでは、ピクセルレベルでラベルを予測する必要がある。
この問題に対処するために、まず、画像レベルの監視を画素レベルのセグメンテーションモデルのトレーニングプロセスに組み込むための一般的なベースラインフレームワークを提案する。
次に、セグメンテーションデータに基づいてトレーニングされたモデルが、トレーニング語彙を超えたカテゴリの画素特徴をグループ化できることを観察する。
この発見に触発されて、モデル性能を改善するために、対応するカテゴリの正確な領域に監督を適用するためのカテゴリワイド注意型分類器を設計する。
大規模な実験により、LarvSegは大きな語彙のセマンティックセグメンテーション性能を著しく改善し、特にマスクラベルのないカテゴリでは顕著に向上することが示された。
初めて、ImageNet21Kの助けを借りて、21Kカテゴリのセマンティックセマンティックセマンティックセマンティクスモデルを提供する。
コードはhttps://github.com/HaojunYu1998/large_voc_segで公開されている。
関連論文リスト
- USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Synthetic Instance Segmentation from Semantic Image Segmentation Masks [15.477053085267404]
我々は、Synthetic Instance(SISeg)と呼ばれる新しいパラダイムを提案する。
SISegインスタンスセグメンテーションの結果は、既存のセマンティックセグメンテーションモデルによって生成されたイメージマスクを活用する。
言い換えれば、提案モデルは余分な人力や高い計算コストを必要としない。
論文 参考訳(メタデータ) (2023-08-02T05:13:02Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - Semantic Segmentation In-the-Wild Without Seeing Any Segmentation
Examples [34.97652735163338]
本稿では,各オブジェクトに対するセマンティックセグメンテーションマスク作成のための新しいアプローチを提案する。
本手法は,画像に含まれるクラスカテゴリのイメージレベルラベルを入力として扱う。
このステージの出力は、教師付きメソッドが必要とする手動のピクセルレベルラベルの代わりに、ピクセルレベルの擬似ラベルを提供する。
論文 参考訳(メタデータ) (2021-12-06T17:32:38Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。