論文の概要: Transformer-CNN Cohort: Semi-supervised Semantic Segmentation by the
Best of Both Students
- arxiv url: http://arxiv.org/abs/2209.02178v2
- Date: Sun, 17 Dec 2023 01:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 21:30:40.343750
- Title: Transformer-CNN Cohort: Semi-supervised Semantic Segmentation by the
Best of Both Students
- Title(参考訳): Transformer-CNNコホート:両学生のベストによる半教師付きセマンティックセマンティックセグメンテーション
- Authors: Xu Zheng, Yunhao Luo, Chong Fu, Kangcheng Liu and Lin Wang
- Abstract要約: 本稿では、視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)に基づく2人の学生からなる、新しい半教師付き学習(SSL)手法を提案する。
提案手法は,非ラベルデータに対する擬似ラベルによる予測と異種特徴空間の多レベル整合正則化を,下位に組み込む。
我々はCityscapesとPascal VOC 2012データセットのTCCフレームワークを検証する。
- 参考スコア(独自算出の注目度): 18.860732413631887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The popular methods for semi-supervised semantic segmentation mostly adopt a
unitary network model using convolutional neural networks (CNNs) and enforce
consistency of the model's predictions over perturbations applied to the inputs
or model. However, such a learning paradigm suffers from two critical
limitations: a) learning the discriminative features for the unlabeled data; b)
learning both global and local information from the whole image. In this paper,
we propose a novel Semi-supervised Learning (SSL) approach, called
Transformer-CNN Cohort (TCC), that consists of two students with one based on
the vision transformer (ViT) and the other based on the CNN. Our method subtly
incorporates the multi-level consistency regularization on the predictions and
the heterogeneous feature spaces via pseudo-labeling for the unlabeled data.
First, as the inputs of the ViT student are image patches, the feature maps
extracted encode crucial class-wise statistics. To this end, we propose
class-aware feature consistency distillation (CFCD) that first leverages the
outputs of each student as the pseudo labels and generates class-aware feature
(CF) maps for knowledge transfer between the two students. Second, as the ViT
student has more uniform representations for all layers, we propose
consistency-aware cross distillation (CCD) to transfer knowledge between the
pixel-wise predictions from the cohort. We validate the TCC framework on
Cityscapes and Pascal VOC 2012 datasets, which outperforms existing SSL methods
by a large margin.
- Abstract(参考訳): 半教師付きセマンティックセグメンテーションの一般的な方法は、主に畳み込みニューラルネットワーク(CNN)を用いたユニタリネットワークモデルを採用し、入力やモデルに適用された摂動に対するモデルの予測の一貫性を強制する。
しかし、そのような学習パラダイムには2つの限界がある。
a) ラベルなしデータの識別的特徴を学習すること
b) 全体像からグローバル及びローカル情報の両方を学ぶこと。
本稿では,Transformer-CNN Cohort(TCC)と呼ばれる,視覚変換器(ViT)とCNN(CNN)をベースとした2人の学生からなる,新しい半教師あり学習(SSL)手法を提案する。
提案手法は,ラベルなしデータの擬似ラベル付けにより,予測値と異種特徴空間の多レベル整合性正規化を補足的に行う。
まず、vit学生の入力は画像パッチであるため、抽出された特徴マップは重要なクラス毎の統計情報をエンコードする。
そこで本研究では,まず各学生の出力を擬似ラベルとして活用し,各学生間の知識伝達のためのクラス認識特徴量(CF)マップを生成するCFCDを提案する。
第二に、ViT学生は全ての層に対してより均一な表現を持つので、コホートからピクセルワイズ予測の間で知識を伝達するための一貫性を考慮したクロス蒸留(CCD)を提案する。
我々はCityscapesとPascal VOC 2012データセットのTCCフレームワークを検証する。
関連論文リスト
- Intrapartum Ultrasound Image Segmentation of Pubic Symphysis and Fetal Head Using Dual Student-Teacher Framework with CNN-ViT Collaborative Learning [1.5233179662962222]
pubic symphysis and fetal head (PSFH) の分節は、労働の進行をモニターし、潜在的に引き起こされる合併症を特定するための重要なステップである。
従来の半教師付き学習アプローチは、主に畳み込みニューラルネットワーク(CNN)に基づく統合ネットワークモデルを利用する。
CNN と Transformer を組み合わせた新しいフレームワークである Dual-Student and Teacher Combining CNN (DSTCT) を導入する。
論文 参考訳(メタデータ) (2024-09-11T00:57:31Z) - Dcl-Net: Dual Contrastive Learning Network for Semi-Supervised
Multi-Organ Segmentation [12.798684146496754]
半教師型MOSのための2段階のDual Contrastive Learning Networkを提案する。
ステージ1では、画像間の暗黙的な連続性と類似性を調べるために、類似性に基づくグローバルコントラスト学習を開発する。
ステージ2では,クラス表現をさらに惹きつけるために,臓器を意識した局所的コントラスト学習を提案する。
論文 参考訳(メタデータ) (2024-03-06T07:39:33Z) - Dual-Augmented Transformer Network for Weakly Supervised Semantic
Segmentation [4.02487511510606]
弱教師付きセマンティックセグメンテーション(WSSS)は、クラスレベルのラベルのみにオブジェクトを分割することを目的とした、基本的なコンピュータビジョンタスクである。
従来の手法では、CNNベースのネットワークを採用し、クラスアクティベーションマップ(CAM)戦略を用いて対象領域を発見する。
別の方法は、視覚変換器(ViT)を探索して画像を符号化し、グローバルな意味情報を取得することである。
相互補完学習のためのCNNベースネットワークとトランスフォーマーネットワークを併用したデュアルネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T08:41:11Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Adversarial Dual-Student with Differentiable Spatial Warping for
Semi-Supervised Semantic Segmentation [70.2166826794421]
本研究では、教師なしデータ拡張を行うために、微分可能な幾何ワープを提案する。
また,平均教師数を改善するために,新しい対角的二重学習フレームワークを提案する。
我々のソリューションは、両方のデータセットで得られるパフォーマンスと最先端の結果を大幅に改善します。
論文 参考訳(メタデータ) (2022-03-05T17:36:17Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - A Transductive Multi-Head Model for Cross-Domain Few-Shot Learning [72.30054522048553]
本稿では,クロスドメインなFew-Shot学習問題に対処するため,TMHFS(Transductive Multi-Head Few-Shot Learning)を提案する。
提案手法は, 4つの異なる対象領域において, 強いベースライン, 微調整を著しく上回っている。
論文 参考訳(メタデータ) (2020-06-08T02:39:59Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。