論文の概要: Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU
- arxiv url: http://arxiv.org/abs/2012.07489v2
- Date: Thu, 8 Apr 2021 16:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:30:18.093700
- Title: Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU
- Title(参考訳): 単一GPU上の1Kクラスを越えたセマンティックセグメンテーションのスケーリング
- Authors: Shipra Jain, Danda Paudel Pani, Martin Danelljan, Luc Van Gool
- Abstract要約: 既存のセマンティックセグメンテーションモデルのトレーニングとスケールアップのための新しいトレーニング手法を提案する。
我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
- 参考スコア(独自算出の注目度): 87.48110331544885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state-of-the-art object detection and image classification methods can
perform impressively on more than 9k and 10k classes, respectively. In
contrast, the number of classes in semantic segmentation datasets is relatively
limited. This is not surprising when the restrictions caused by the lack of
labeled data and high computation demand for segmentation are considered. In
this paper, we propose a novel training methodology to train and scale the
existing semantic segmentation models for a large number of semantic classes
without increasing the memory overhead. In our embedding-based scalable
segmentation approach, we reduce the space complexity of the segmentation
model's output from O(C) to O(1), propose an approximation method for
ground-truth class probability, and use it to compute cross-entropy loss. The
proposed approach is general and can be adopted by any state-of-the-art
segmentation model to gracefully scale it for any number of semantic classes
with only one GPU. Our approach achieves similar, and in some cases, even
better mIoU for Cityscapes, Pascal VOC, ADE20k, COCO-Stuff10k datasets when
adopted to DeeplabV3+ model with different backbones. We demonstrate a clear
benefit of our approach on a dataset with 1284 classes, bootstrapped from LVIS
and COCO annotations, with three times better mIoU than the DeeplabV3+ model.
- Abstract(参考訳): 最先端のオブジェクト検出法と画像分類法は、それぞれ9kクラスと10kクラスで顕著に機能する。
対照的に、セマンティックセグメンテーションデータセットのクラス数は比較的限られている。
ラベル付きデータの欠如とセグメンテーションに対する高い計算要求が考慮される場合、これは驚くべきことではない。
本稿では,メモリオーバーヘッドを増大させることなく,既存のセマンティックセマンティックセマンティクスモデルを多数のセマンティクスクラスに対してトレーニングし,拡張するための新しいトレーニング手法を提案する。
埋め込み型スケーラブルなセグメンテーション手法では,O(C) から O(1) へのセグメンテーションモデルの出力の空間的複雑さを低減し,地絡クラス確率の近似法を提案し,それをクロスエントロピー損失の計算に用いる。
提案されたアプローチは一般的であり、任意の最先端セグメンテーションモデルで採用でき、1つのgpuで任意の数のセマンティクスクラスに対して優雅にスケールすることができる。
我々のアプローチは類似しており、場合によっては、異なるバックボーンを持つDeeplabV3+モデルを採用する際に、Cityscapes、Pascal VOC、ADE20k、COCO-Stuff10kデータセットのmIoUをさらに改善する。
我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
関連論文リスト
- Lightweight Uncertainty Quantification with Simplex Semantic Segmentation for Terrain Traversability [12.765558639563649]
本稿では,任意の事前学習画像分割モデルに接続可能な,シンプルで軽量なモジュールを提案する。
我々のモジュールは、それぞれのプロトタイプベクトルによるセグメント化クラスを最大限に分離することに基づいている。
地形分割におけるモジュールの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-18T11:00:49Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Placing Objects in Context via Inpainting for Out-of-distribution Segmentation [59.00092709848619]
コンテキスト内のオブジェクトの配置(POC)は、イメージにオブジェクトを現実的に追加するためのパイプラインである。
POCは任意の数のオブジェクトで任意のデータセットを拡張するために使用することができる。
本稿では,POC 生成データに基づく様々な異常セグメンテーションデータセットを提示し,最近の最先端の異常チューニング手法の性能向上を実証する。
論文 参考訳(メタデータ) (2024-02-26T08:32:41Z) - Interclass Prototype Relation for Few-Shot Segmentation [0.0]
少数ショットのセグメンテーションでは、特徴空間におけるターゲットクラスデータの分布は狭く、サンプルデータのわずかなばらつきのため、カバレッジが低い。
本研究は,他のクラス間の類似性を低減し,分離性能を向上するInterclass Prototype Relation Network (IPRNet)を提案する。
論文 参考訳(メタデータ) (2022-11-16T05:27:52Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - EOLO: Embedded Object Segmentation only Look Once [0.0]
3つの独立したブランチで概念的にシンプルであり、完全に畳み込み可能で、モバイルや組み込みデバイスに簡単に組み込むことができるアンカーフリーでシングルショットのインスタンスセグメンテーション手法を導入する。
EOLOと呼ばれる本手法では,各画素のインスタンス中心分類と4次元距離回帰により,意味的セグメンテーションを予測し,重なり合うオブジェクト問題を区別するものとして,インスタンス分割問題を再構成する。
ベルとホイッスルがなければ、EOLOはIoU50の下で27.7$%のマスクmAPを獲得し、1080Ti GPU上で30FPSに達し、シングルモデルとシングルスケールのトレーニング/テストが可能である。
論文 参考訳(メタデータ) (2020-03-31T21:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。