論文の概要: CAR: Class-aware Regularizations for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2203.07160v1
- Date: Mon, 14 Mar 2022 15:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 22:13:40.011677
- Title: CAR: Class-aware Regularizations for Semantic Segmentation
- Title(参考訳): CAR: セマンティックセグメンテーションのためのクラス認識正規化
- Authors: Ye Huang, Di Kang, Liang Chen, Xuefei Zhe, Wenjing Jia, Xiangjian He,
Linchao Bao
- Abstract要約: 特徴学習におけるクラス内分散とクラス間距離を最適化するためのクラス認識正規化(CAR)手法を提案する。
本手法は,OCRやCPNetを含む既存のセグメンテーションモデルに容易に適用することができる。
- 参考スコア(独自算出の注目度): 20.947897583427192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent segmentation methods, such as OCR and CPNet, utilizing "class level"
information in addition to pixel features, have achieved notable success for
boosting the accuracy of existing network modules. However, the extracted
class-level information was simply concatenated to pixel features, without
explicitly being exploited for better pixel representation learning. Moreover,
these approaches learn soft class centers based on coarse mask prediction,
which is prone to error accumulation. In this paper, aiming to use class level
information more effectively, we propose a universal Class-Aware Regularization
(CAR) approach to optimize the intra-class variance and inter-class distance
during feature learning, motivated by the fact that humans can recognize an
object by itself no matter which other objects it appears with. Three novel
loss functions are proposed. The first loss function encourages more compact
class representations within each class, the second directly maximizes the
distance between different class centers, and the third further pushes the
distance between inter-class centers and pixels. Furthermore, the class center
in our approach is directly generated from ground truth instead of from the
error-prone coarse prediction. Our method can be easily applied to most
existing segmentation models during training, including OCR and CPNet, and can
largely improve their accuracy at no additional inference overhead. Extensive
experiments and ablation studies conducted on multiple benchmark datasets
demonstrate that the proposed CAR can boost the accuracy of all baseline models
by up to 2.23% mIOU with superior generalization ability. The complete code is
available at https://github.com/edwardyehuang/CAR.
- Abstract(参考訳): ocrやcpnetといった近年のセグメンテーション手法では、ピクセル機能に加えて「クラスレベル」情報を利用するようになり、既存のネットワークモジュールの精度向上に成功している。
しかし,抽出したクラスレベルの情報は,より優れた画素表現学習のために明示的に活用されることなく,単純に画素特徴に結合された。
さらに,これらの手法は,誤差蓄積の傾向にある粗いマスク予測に基づいてソフトクラスセンターを学習する。
本稿では,クラスレベルの情報をより効果的に活用することを目的とした,特徴学習におけるクラス内分散とクラス間距離を最適化する汎用クラス認識規則化(CAR)手法を提案する。
3つの新しい損失関数が提案されている。
第1のロス関数は各クラス内のよりコンパクトなクラス表現を奨励し、第2のロス関数は異なるクラス中心間の距離を直接最大化し、第3のロス関数はクラス中心とピクセル間の距離をさらに推し進める。
さらに,提案手法のクラス中心は,誤差発生による粗い予測ではなく,真理から直接生成される。
本手法は,OCRやCPNetを含む既存のセグメンテーションモデルに容易に適用でき,追加の推論オーバーヘッドを伴わずに精度を大幅に向上させることができる。
複数のベンチマークデータセットで行った大規模な実験とアブレーション研究により、提案されたCARは、より優れた一般化能力を持つ2.23%のmIOUで全てのベースラインモデルの精度を向上できることを示した。
完全なコードはhttps://github.com/edwardyehuang/CARで公開されている。
関連論文リスト
- Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - Unicom: Universal and Compact Representation Learning for Image
Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。
提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-12T14:25:52Z) - DiGeo: Discriminative Geometry-Aware Learning for Generalized Few-Shot
Object Detection [39.937724871284665]
汎用的な少ショットオブジェクト検出は、豊富なアノテーションと限られたトレーニングデータを持つ新しいクラスで、両方のベースクラス上で正確な検出を実現することを目的としている。
既存のアプローチは、ベースクラスのパフォーマンスを犠牲にして、数ショットの一般化を促進する。
クラス間分離とクラス内コンパクト性の幾何学的特徴を学習するための新しいトレーニングフレームワークDiGeoを提案する。
論文 参考訳(メタデータ) (2023-03-16T22:37:09Z) - CARD: Semantic Segmentation with Efficient Class-Aware Regularized
Decoder [31.223271128719603]
特徴学習におけるクラス内分散とクラス間距離を最適化するためのクラス認識正規化(CAR)手法を提案する。
CARはトレーニング中に既存のほとんどのセグメンテーションモデルに直接適用することができ、追加の推論オーバーヘッドなしに精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-11T01:41:37Z) - Visual Recognition with Deep Nearest Centroids [57.35144702563746]
我々は、概念的にエレガントで驚くほど効果的な大規模視覚認識ネットワークである深部セントロイド(DNC)を考案した。
パラメトリックと比較すると、DNCは画像分類(CIFAR-10, ImageNet)に優れ、画像認識(ADE20K, Cityscapes)を大いに起動する。
論文 参考訳(メタデータ) (2022-09-15T15:47:31Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。