論文の概要: Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU
- arxiv url: http://arxiv.org/abs/2012.07489v2
- Date: Thu, 8 Apr 2021 16:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:30:18.093700
- Title: Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU
- Title(参考訳): 単一GPU上の1Kクラスを越えたセマンティックセグメンテーションのスケーリング
- Authors: Shipra Jain, Danda Paudel Pani, Martin Danelljan, Luc Van Gool
- Abstract要約: 既存のセマンティックセグメンテーションモデルのトレーニングとスケールアップのための新しいトレーニング手法を提案する。
我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
- 参考スコア(独自算出の注目度): 87.48110331544885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state-of-the-art object detection and image classification methods can
perform impressively on more than 9k and 10k classes, respectively. In
contrast, the number of classes in semantic segmentation datasets is relatively
limited. This is not surprising when the restrictions caused by the lack of
labeled data and high computation demand for segmentation are considered. In
this paper, we propose a novel training methodology to train and scale the
existing semantic segmentation models for a large number of semantic classes
without increasing the memory overhead. In our embedding-based scalable
segmentation approach, we reduce the space complexity of the segmentation
model's output from O(C) to O(1), propose an approximation method for
ground-truth class probability, and use it to compute cross-entropy loss. The
proposed approach is general and can be adopted by any state-of-the-art
segmentation model to gracefully scale it for any number of semantic classes
with only one GPU. Our approach achieves similar, and in some cases, even
better mIoU for Cityscapes, Pascal VOC, ADE20k, COCO-Stuff10k datasets when
adopted to DeeplabV3+ model with different backbones. We demonstrate a clear
benefit of our approach on a dataset with 1284 classes, bootstrapped from LVIS
and COCO annotations, with three times better mIoU than the DeeplabV3+ model.
- Abstract(参考訳): 最先端のオブジェクト検出法と画像分類法は、それぞれ9kクラスと10kクラスで顕著に機能する。
対照的に、セマンティックセグメンテーションデータセットのクラス数は比較的限られている。
ラベル付きデータの欠如とセグメンテーションに対する高い計算要求が考慮される場合、これは驚くべきことではない。
本稿では,メモリオーバーヘッドを増大させることなく,既存のセマンティックセマンティックセマンティクスモデルを多数のセマンティクスクラスに対してトレーニングし,拡張するための新しいトレーニング手法を提案する。
埋め込み型スケーラブルなセグメンテーション手法では,O(C) から O(1) へのセグメンテーションモデルの出力の空間的複雑さを低減し,地絡クラス確率の近似法を提案し,それをクロスエントロピー損失の計算に用いる。
提案されたアプローチは一般的であり、任意の最先端セグメンテーションモデルで採用でき、1つのgpuで任意の数のセマンティクスクラスに対して優雅にスケールすることができる。
我々のアプローチは類似しており、場合によっては、異なるバックボーンを持つDeeplabV3+モデルを採用する際に、Cityscapes、Pascal VOC、ADE20k、COCO-Stuff10kデータセットのmIoUをさらに改善する。
我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
関連論文リスト
- Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Interclass Prototype Relation for Few-Shot Segmentation [0.0]
少数ショットのセグメンテーションでは、特徴空間におけるターゲットクラスデータの分布は狭く、サンプルデータのわずかなばらつきのため、カバレッジが低い。
本研究は,他のクラス間の類似性を低減し,分離性能を向上するInterclass Prototype Relation Network (IPRNet)を提案する。
論文 参考訳(メタデータ) (2022-11-16T05:27:52Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - The devil is in the labels: Semantic segmentation from sentences [106.52405522077841]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Monocular Instance Motion Segmentation for Autonomous Driving: KITTI
InstanceMotSeg Dataset and Multi-task Baseline [5.000331633798637]
オブジェクトのセグメンテーションは、クラス非依存の方法でオブジェクトをセグメンテーションするために使用できるため、自動運転車にとって重要なタスクである。
自律走行の文献ではピクセル単位の運動セグメンテーションが研究されているが、インスタンスレベルではめったに研究されていない。
我々は、KITTIMoSegデータセットを改善した12.9Kサンプルからなる新しいInstanceMotSegデータセットを作成します。
論文 参考訳(メタデータ) (2020-08-16T21:47:09Z) - Objectness-Aware Few-Shot Semantic Segmentation [31.13009111054977]
モデル全体のキャパシティを向上し、パフォーマンスを向上させる方法を示す。
我々は、クラス非依存であり、過度に適合しがちな客観性を導入する。
注釈のないカテゴリの例が1つだけあると、実験により、mIoUに関して、我々の手法が最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-04-06T19:12:08Z) - EOLO: Embedded Object Segmentation only Look Once [0.0]
3つの独立したブランチで概念的にシンプルであり、完全に畳み込み可能で、モバイルや組み込みデバイスに簡単に組み込むことができるアンカーフリーでシングルショットのインスタンスセグメンテーション手法を導入する。
EOLOと呼ばれる本手法では,各画素のインスタンス中心分類と4次元距離回帰により,意味的セグメンテーションを予測し,重なり合うオブジェクト問題を区別するものとして,インスタンス分割問題を再構成する。
ベルとホイッスルがなければ、EOLOはIoU50の下で27.7$%のマスクmAPを獲得し、1080Ti GPU上で30FPSに達し、シングルモデルとシングルスケールのトレーニング/テストが可能である。
論文 参考訳(メタデータ) (2020-03-31T21:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。