論文の概要: Rethinking Semantic Segmentation: A Prototype View
- arxiv url: http://arxiv.org/abs/2203.15102v1
- Date: Mon, 28 Mar 2022 21:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 11:12:16.048238
- Title: Rethinking Semantic Segmentation: A Prototype View
- Title(参考訳): セマンティクスのセグメンテーションを再考する:プロトタイプビュー
- Authors: Tianfei Zhou, Wenguan Wang, Ender Konukoglu, Luc Van Gool
- Abstract要約: 学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
- 参考スコア(独自算出の注目度): 126.59244185849838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prevalent semantic segmentation solutions, despite their different network
designs (FCN based or attention based) and mask decoding strategies (parametric
softmax based or pixel-query based), can be placed in one category, by
considering the softmax weights or query vectors as learnable class prototypes.
In light of this prototype view, this study uncovers several limitations of
such parametric segmentation regime, and proposes a nonparametric alternative
based on non-learnable prototypes. Instead of prior methods learning a single
weight/query vector for each class in a fully parametric manner, our model
represents each class as a set of non-learnable prototypes, relying solely on
the mean features of several training pixels within that class. The dense
prediction is thus achieved by nonparametric nearest prototype retrieving. This
allows our model to directly shape the pixel embedding space, by optimizing the
arrangement between embedded pixels and anchored prototypes. It is able to
handle arbitrary number of classes with a constant amount of learnable
parameters. We empirically show that, with FCN based and attention based
segmentation models (i.e., HRNet, Swin, SegFormer) and backbones (i.e., ResNet,
HRNet, Swin, MiT), our nonparametric framework yields compelling results over
several datasets (i.e., ADE20K, Cityscapes, COCO-Stuff), and performs well in
the large-vocabulary situation. We expect this work will provoke a rethink of
the current de facto semantic segmentation model design.
- Abstract(参考訳): 一般的なセマンティックセグメンテーションソリューションは、異なるネットワーク設計(FCNベースまたはアテンションベース)やマスクデコード戦略(パラメトリックソフトマックスベースまたはピクセルクエリベース)にもかかわらず、ソフトマックス重みまたはクエリベクトルを学習可能なクラスプロトタイプとして考慮し、一つのカテゴリに配置することができる。
このプロトタイプの観点から,パラメトリックセグメンテーションのいくつかの限界を明らかにし,非学習可能なプロトタイプに基づく非パラメトリックな代替案を提案する。
従来の方法でクラスごとに単一の重み/クエリベクトルを完全パラメトリックに学習するのではなく,各クラスを学習可能なプロトタイプの集合として表現し,そのクラス内の複数のトレーニングピクセルの平均的特徴のみに依存する。
したがって、この密度予測は、非パラメトリックな最も近いプロトタイプ検索によって達成される。
これにより,組込み画素と固定プロトタイプとの配置を最適化することにより,画素埋め込み空間を直接形成することができる。
任意の数のクラスを一定量の学習可能なパラメータで処理することができる。
FCNベースのセグメンテーションモデル(HRNet, Swin, SegFormer)とバックボーン(ResNet, HRNet, Swin, MiT)により、我々の非パラメトリックなフレームワークは、複数のデータセット(ADE20K, Cityscapes, COCO-Stuff)に対して魅力的な結果をもたらし、大語彙の状況でうまく機能することを実証的に示す。
この作業は、現在の事実上のセマンティクスセグメンテーションモデル設計の再検討をもたらすと期待しています。
関連論文リスト
- Multi-Scale Grouped Prototypes for Interpretable Semantic Segmentation [7.372346036256517]
意味的セグメンテーションを解釈可能なものにするための、有望なアプローチとして、プロトタイプ的な部分学習が登場している。
本稿では,多スケール画像表現を利用した意味的セグメンテーションの解釈手法を提案する。
Pascal VOC,Cityscapes,ADE20Kで行った実験により,提案手法はモデルの疎結合性を高め,既存のプロトタイプ手法よりも解釈可能性を高め,非解釈可能なモデルとの性能ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2024-09-14T17:52:59Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Unicom: Universal and Compact Representation Learning for Image
Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。
提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-12T14:25:52Z) - Number-Adaptive Prototype Learning for 3D Point Cloud Semantic
Segmentation [46.610620464184926]
セマンティッククラス内の異なる点パターンを動的に記述するために,適応的なプロトタイプ数を提案する。
本手法は,ポイントワイド分類パラダイムに基づくベースラインモデルよりも2.3%mIoUの改善を実現する。
論文 参考訳(メタデータ) (2022-10-18T15:57:20Z) - Few-Shot Segmentation via Rich Prototype Generation and Recurrent
Prediction Enhancement [12.614578133091168]
本稿では,プロトタイプ学習パラダイムを強化するために,リッチプロトタイプ生成モジュール (RPGM) と繰り返し予測拡張モジュール (RPEM) を提案する。
RPGMはスーパーピクセルとK平均クラスタリングを組み合わせて、補完的なスケール関係を持つリッチなプロトタイプ機能を生成する。
RPEMは、リカレントメカニズムを使用して、ラウンドウェイ伝搬デコーダを設計する。
論文 参考訳(メタデータ) (2022-10-03T08:46:52Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。