論文の概要: Unlabeled Data or Pre-trained Model: Rethinking Semi-Supervised Learning and Pretrain-Finetuning
- arxiv url: http://arxiv.org/abs/2505.13317v3
- Date: Wed, 21 May 2025 02:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.615353
- Title: Unlabeled Data or Pre-trained Model: Rethinking Semi-Supervised Learning and Pretrain-Finetuning
- Title(参考訳): ラベル付きデータまたは事前学習モデル:半教師付き学習と事前学習ネットワークの再考
- Authors: Song-Lin Lv, Rui Zhu, Yu-Feng Li, Lan-Zhe Guo,
- Abstract要約: 半教師付き学習(SSL)は、ラベルのないデータを活用することにより、データラベリングプロセスのコストを軽減する。
プレトレイン・ネットワークのパラダイムは近年大きな注目を集めている。
この2つのパラダイムを公平に比較できるフレームワークであるtextitFew-shot SSLを提案する。
- 参考スコア(独自算出の注目度): 47.18766077898836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-supervised learning (SSL) alleviates the cost of data labeling process by exploiting unlabeled data, and has achieved promising results on various tasks such as image classification. Meanwhile, the Pretrain-Finetuning paradigm has garnered significant attention in recent years, and exploiting pre-trained models could also reduce the requirement of labeled data in downstream tasks. Therefore, a question naturally occurs: \emph{When the labeled data is scarce in the target tasks, should we exploit unlabeled data or pre-trained models?} To answer this question, we select pre-trained Vision-Language Models (VLMs) as representative pretrain-finetuning instances and propose \textit{Few-shot SSL} -- a framework that enables fair comparison between these two paradigms by controlling the amount of labeled data used. Extensive experiments across various settings demonstrate that pre-trained VLMs generally outperform SSL methods in nearly all cases, except when the data has low resolution or lacks clear semantic structure. Therefore, we encourage future SSL research to compare with pre-trained models and explore deeper integration, such as using pre-trained knowledge to enhance pseudo-labeling. To support future research, we release our unified reproduction and evaluation framework. Codes are available \href{https://anonymous.4open.science/r/Rethinking-SSL-and-Pretrain-Finetuning-5566 }{here}.
- Abstract(参考訳): 半教師付き学習(SSL)は、ラベルのないデータを活用することにより、データラベリングのコストを軽減し、画像分類などの様々なタスクにおいて有望な結果を得た。
一方、Pretrain-Finetuningパラダイムは近年大きな注目を集めており、事前トレーニングされたモデルを活用することで、下流タスクにおけるラベル付きデータの要求を低減できる。
ラベル付けされたデータがターゲットのタスクで不足している場合、ラベル付けされていないデータや事前訓練済みのモデルを利用するべきだろうか?
この質問に答えるために、私たちはトレーニング済みビジョンランゲージモデル(VLM)を代表的なトレーニング済みファインタニングインスタンスとして選択し、使用するラベル付きデータの量をコントロールすることによって、これらの2つのパラダイムの公正な比較を可能にするフレームワークである「textit{Few-shot SSL}」を提案します。
さまざまな設定にわたる大規模な実験では、データの解像度が低く、明確なセマンティック構造が欠如している場合を除いて、トレーニング済みのVLMがSSLメソッドよりも一般的に優れていることが示されている。
そこで我々は、SSL研究を事前訓練されたモデルと比較し、擬似ラベルの強化に事前訓練された知識を使用するなど、より深い統合を探求することを推奨する。
今後の研究を支援するため、我々は統合された再生・評価フレームワークをリリースする。
コードは \href{https://anonymous.4open.science/r/Rethinking-SSL-and-Pretrain-Finetuning-5566 }{here} で利用可能である。
関連論文リスト
- FATE: A Prompt-Tuning-Based Semi-Supervised Learning Framework for Extremely Limited Labeled Data [36.21759320898034]
ラベル付きデータとラベルなしデータの両方を活用することで、半教師付き学習(SSL)は大きな進歩を遂げた。
我々は,ラベル付きデータに極めて制限のあるシナリオに適した新しいSSLフレームワークであるFirstly Adapt, Then catEgorize (FATE)を提案する。
FATEはラベルのないデータを利用して監視信号の不足を補い、下流のタスクに転送する。
論文 参考訳(メタデータ) (2025-04-14T02:54:28Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Self-supervised learning for skin cancer diagnosis with limited training data [0.196629787330046]
自己教師付き学習(SSL)は、限られたトレーニングデータを持つシナリオに対するImageNetの標準教師付き事前トレーニングの代替である。
textitfurther SSL をタスク固有のデータセットで事前トレーニングし、その実装は教師あり転送学習によって動機づけられる。
タスク固有のデータに対するより最小限のSSL事前トレーニングは、限られたラベル付きデータによる医療画像分類タスクにおいて、ImageNet上の大規模なSSL事前トレーニングと同じくらい効果的である。
論文 参考訳(メタデータ) (2024-01-01T08:11:38Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。