論文の概要: CARD: Semantic Segmentation with Efficient Class-Aware Regularized
Decoder
- arxiv url: http://arxiv.org/abs/2301.04258v1
- Date: Wed, 11 Jan 2023 01:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 16:55:05.523749
- Title: CARD: Semantic Segmentation with Efficient Class-Aware Regularized
Decoder
- Title(参考訳): CARD: 効率的なクラス認識正規化デコーダによるセマンティックセグメンテーション
- Authors: Ye Huang, Di Kang, Liang Chen, Wenjing Jia, Xiangjian He, Lixin Duan,
Xuefei Zhe, Linchao Bao
- Abstract要約: 特徴学習におけるクラス内分散とクラス間距離を最適化するためのクラス認識正規化(CAR)手法を提案する。
CARはトレーニング中に既存のほとんどのセグメンテーションモデルに直接適用することができ、追加の推論オーバーヘッドなしに精度を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 31.223271128719603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation has recently achieved notable advances by exploiting
"class-level" contextual information during learning. However, these approaches
simply concatenate class-level information to pixel features to boost the pixel
representation learning, which cannot fully utilize intra-class and inter-class
contextual information. Moreover, these approaches learn soft class centers
based on coarse mask prediction, which is prone to error accumulation. To
better exploit class level information, we propose a universal Class-Aware
Regularization (CAR) approach to optimize the intra-class variance and
inter-class distance during feature learning, motivated by the fact that humans
can recognize an object by itself no matter which other objects it appears
with. Moreover, we design a dedicated decoder for CAR (CARD), which consists of
a novel spatial token mixer and an upsampling module, to maximize its gain for
existing baselines while being highly efficient in terms of computational cost.
Specifically, CAR consists of three novel loss functions. The first loss
function encourages more compact class representations within each class, the
second directly maximizes the distance between different class centers, and the
third further pushes the distance between inter-class centers and pixels.
Furthermore, the class center in our approach is directly generated from ground
truth instead of from the error-prone coarse prediction. CAR can be directly
applied to most existing segmentation models during training, and can largely
improve their accuracy at no additional inference overhead. Extensive
experiments and ablation studies conducted on multiple benchmark datasets
demonstrate that the proposed CAR can boost the accuracy of all baseline models
by up to 2.23% mIOU with superior generalization ability. CARD outperforms SOTA
approaches on multiple benchmarks with a highly efficient architecture.
- Abstract(参考訳): セマンティックセグメンテーションは、最近、学習中に「クラスレベルの」文脈情報を活用することで顕著な進歩を遂げた。
しかし,これらの手法は,クラスレベルの情報をピクセル特徴に結合することで,クラス内およびクラス間コンテキスト情報を十分に活用できない画素表現学習を促進する。
さらに,これらの手法は,誤差蓄積の傾向にある粗いマスク予測に基づいてソフトクラスセンターを学習する。
クラスレベルの情報をよりよく活用するために,特徴学習におけるクラス内分散とクラス間距離を最適化する汎用クラス認識規則化(CAR)手法を提案する。
さらに,新しい空間トークンミキサーとアップサンプリングモジュールからなる車専用デコーダの設計を行い,計算コストの面では高い効率を保ちつつ,既存ベースラインの利得を最大化する。
具体的には、CARは3つの新しい損失関数からなる。
第1のロス関数は各クラス内のよりコンパクトなクラス表現を奨励し、第2のロス関数は異なるクラス中心間の距離を直接最大化し、第3のロス関数はクラス中心とピクセル間の距離をさらに推し進める。
さらに,提案手法のクラス中心は,誤差発生による粗い予測ではなく,真理から直接生成される。
車はトレーニング中に既存のほとんどのセグメンテーションモデルに直接適用することができ、追加の推論オーバーヘッドなしに精度を大幅に向上することができる。
複数のベンチマークデータセットで行った大規模な実験とアブレーション研究により、提案されたCARは、より優れた一般化能力を持つ2.23%のmIOUで全てのベースラインモデルの精度を向上できることを示した。
CARDは、高い効率のアーキテクチャを持つ複数のベンチマークにおいて、SOTAアプローチより優れている。
関連論文リスト
- Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized
Zero-Shot Learning [0.7420433640907689]
一般化ゼロショット学習(GZSL)は、見知らぬクラスから知識を伝達することで、目に見えないクラスを認識する。
本稿では,一般化ギャップに対処するための二重戦略を提案する。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - Learning from Mistakes: Self-Regularizing Hierarchical Representations
in Point Cloud Semantic Segmentation [15.353256018248103]
LiDARセマンティックセマンティックセマンティクスは、きめ細かいシーン理解を実現するために注目を集めている。
本稿では、標準モデルから派生した分類ミスタケス(LEAK)からLEArnを分離する粗大な設定を提案する。
我々のLEAKアプローチは非常に一般的で、どんなセグメンテーションアーキテクチャにもシームレスに適用できます。
論文 参考訳(メタデータ) (2023-01-26T14:52:30Z) - CAR: Class-aware Regularizations for Semantic Segmentation [20.947897583427192]
特徴学習におけるクラス内分散とクラス間距離を最適化するためのクラス認識正規化(CAR)手法を提案する。
本手法は,OCRやCPNetを含む既存のセグメンテーションモデルに容易に適用することができる。
論文 参考訳(メタデータ) (2022-03-14T15:02:48Z) - Self-Supervised Class Incremental Learning [51.62542103481908]
既存のクラスインクリメンタルラーニング(CIL)手法は、データラベルに敏感な教師付き分類フレームワークに基づいている。
新しいクラスデータに基づいて更新する場合、それらは破滅的な忘れがちである。
本稿では,SSCILにおける自己指導型表現学習のパフォーマンスを初めて考察する。
論文 参考訳(メタデータ) (2021-11-18T06:58:19Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Few-Shot Incremental Learning with Continually Evolved Classifiers [46.278573301326276]
Few-shot Class-Incremental Learning(FSCIL)は、いくつかのデータポイントから新しい概念を継続的に学習できる機械学習アルゴリズムの設計を目指している。
難点は、新しいクラスからの限られたデータが、重大な過度な問題を引き起こすだけでなく、破滅的な忘れの問題も悪化させることにある。
我々は,適応のための分類器間のコンテキスト情報を伝達するグラフモデルを用いた連続進化型cif(cec)を提案する。
論文 参考訳(メタデータ) (2021-04-07T10:54:51Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Generalized Zero-Shot Learning Via Over-Complete Distribution [79.5140590952889]
そこで本稿では,CVAE (Conditional Variational Autoencoder) を用いたOCD(Over-Complete Distribution) の生成を提案する。
フレームワークの有効性は,Zero-Shot LearningプロトコルとGeneralized Zero-Shot Learningプロトコルの両方を用いて評価する。
論文 参考訳(メタデータ) (2020-04-01T19:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。