論文の概要: CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation
- arxiv url: http://arxiv.org/abs/2505.21904v2
- Date: Thu, 29 May 2025 01:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.77856
- Title: CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation
- Title(参考訳): CAST:セミスーパービジョンインスタンスセグメンテーションのためのコントラスト適応と蒸留
- Authors: Pardis Taghavi, Tian Liu, Renjie Li, Reza Langari, Zhengzhong Tu,
- Abstract要約: 我々は,事前学習型視覚基礎モデル(VFM)をコンパクトな専門家に圧縮する,半教師付き知識蒸留(SSKD)フレームワークであるCASTを紹介する。
1) コントラスト画素校正による自己学習による VFM 教師のドメイン適応,(2) 統一多目的損失によるコンパクトな学生への蒸留,の3段階に展開する。
Cityscapes と ADE20K では、我々の11X小学生は、適応された VFM 教師を +3.4 AP (33.9 vs. 30.5) と +1.5 AP (16.7 vs. 15.2) で上回り、州を上回ります。
- 参考スコア(独自算出の注目度): 7.478518822890964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instance segmentation demands costly per-pixel annotations and large models. We introduce CAST, a semi-supervised knowledge distillation (SSKD) framework that compresses pretrained vision foundation models (VFM) into compact experts using limited labeled and abundant unlabeled data. CAST unfolds in three stages: (1) domain adaptation of the VFM teacher(s) via self-training with contrastive pixel calibration, (2) distillation into a compact student via a unified multi-objective loss that couples standard supervision and pseudo-labels with our instance-aware pixel-wise contrastive term, and (3) fine-tuning on labeled data to remove residual pseudo-label bias. Central to CAST is an \emph{instance-aware pixel-wise contrastive loss} that fuses mask and class scores to mine informative negatives and enforce clear inter-instance margins. By maintaining this contrastive signal across both adaptation and distillation, we align teacher and student embeddings and fully leverage unlabeled images. On Cityscapes and ADE20K, our ~11X smaller student surpasses its adapted VFM teacher(s) by +3.4 AP (33.9 vs. 30.5) and +1.5 AP (16.7 vs. 15.2) and outperforms state-of-the-art semi-supervised approaches.
- Abstract(参考訳): インスタンスのセグメンテーションには、ピクセル単位のアノテーションと大きなモデルが必要になります。
我々は,限定ラベル付きおよび豊富なラベル付きデータを用いて,事前学習された視覚基盤モデル(VFM)をコンパクトな専門家に圧縮する,半教師付き知識蒸留(SSKD)フレームワークであるCASTを紹介する。
CAST は,(1) 画素校正による自己学習による VFM 教師のドメイン適応,(2) 標準監督と擬似ラベルを両立させる統一的多目的損失によるコンパクトな学生への蒸留,(3) ラベル付きデータによる微調整による残留擬似ラベルバイアスの除去,の3段階に展開する。
CASTの中核は「emph{instance-aware pixel-wise contrastive loss」であり、マスクとクラススコアを融合させて情報的ネガティブを抽出し、透明なインスタンス間マージンを強制する。
適応と蒸留の両方のコントラスト信号を維持することにより、教師と学生の埋め込みを整列させ、ラベルのない画像を完全に活用する。
Cityscapes と ADE20K では、我々の ~11X 小学生は、適応された VFM 教師を +3.4 AP (33.9 vs. 30.5) と +1.5 AP (16.7 vs. 15.2) で上回り、最先端の半教師付きアプローチを上回ります。
関連論文リスト
- Pseudo-Label Quality Decoupling and Correction for Semi-Supervised Instance Segmentation [62.55963720723179]
Semi-Supervised Instance (SSIS)は、画像ピクセルを別個のオブジェクトインスタンスに分類し、グループ化する。
この学習パラダイムは、通常、インスタンスカテゴリやピクセルマスクのノイズの多い擬似ラベルによって生じる不安定なパフォーマンスの重大な課題に直面します。
上記の課題に対処するために, PseudoLabel Quality Decoupling and Correction (PL-DC) フレームワークを新たに導入する。
論文 参考訳(メタデータ) (2025-05-16T10:07:17Z) - Stable Mean Teacher for Semi-supervised Video Action Detection [3.5743998666556855]
我々は,映像行動検出のための半教師付き学習に焦点を当てた。
改良された時間的に一貫した擬似ラベルの恩恵を受ける、シンプルなエンドツーエンドの教師ベースのフレームワークである安定平均教師を紹介する。
論文 参考訳(メタデータ) (2024-12-10T00:25:33Z) - ContraCluster: Learning to Classify without Labels by Contrastive
Self-Supervision and Prototype-Based Semi-Supervision [7.819942809508631]
本研究では,クラスタリングとコントラスト型自己教師学習の能力を組み合わせた教師なし画像分類手法であるContraClusterを提案する。
ContraClusterは、(1)コントラスト型自己監督型事前訓練(CPT)、(2)コントラスト型プロトタイプサンプリング(CPS)、(3)プロトタイプ型半教師型微調整(PB-SFT)の3段階からなる。
我々は、CIFAR-10、STL-10、ImageNet-10などの標準ベンチマークデータセットに対して、ContraClusterが新しい最先端結果を達成することを実証的に示す。
論文 参考訳(メタデータ) (2023-04-19T01:51:08Z) - Mix-Teaching: A Simple, Unified and Effective Semi-Supervised Learning
Framework for Monocular 3D Object Detection [22.074959519526605]
Mix-Teachingは、ラベル付き画像とラベルなし画像の両方をトレーニング段階で使用するための効果的な半教師付き学習フレームワークである。
Mix-Teaching は MonoFlex と GUPNet を KITTI データセット上で様々なラベル付け比率で大幅に改善している。
論文 参考訳(メタデータ) (2022-07-10T12:07:25Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - Adversarial Dual-Student with Differentiable Spatial Warping for
Semi-Supervised Semantic Segmentation [70.2166826794421]
本研究では、教師なしデータ拡張を行うために、微分可能な幾何ワープを提案する。
また,平均教師数を改善するために,新しい対角的二重学習フレームワークを提案する。
我々のソリューションは、両方のデータセットで得られるパフォーマンスと最先端の結果を大幅に改善します。
論文 参考訳(メタデータ) (2022-03-05T17:36:17Z) - Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast [43.40192909920495]
クロスビュー特徴のセマンティック一貫性とイントラ(インター)クラスのコンパクト性(分散)について検討した。
本稿では,2つの新しい画素対プロトタイプのコントラスト正規化用語を提案する。
我々の手法は、ベースネットワークを変更することなく、既存のWSSSモデルにシームレスに組み込むことができる。
論文 参考訳(メタデータ) (2021-10-14T01:44:57Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation
Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。
この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。
その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-11T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。