論文の概要: Unlabeled Data vs. Pre-trained Knowledge: Rethinking SSL in the Era of Large Models
- arxiv url: http://arxiv.org/abs/2505.13317v4
- Date: Sun, 26 Oct 2025 05:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.540346
- Title: Unlabeled Data vs. Pre-trained Knowledge: Rethinking SSL in the Era of Large Models
- Title(参考訳): ラベルなしデータ vs. 事前訓練された知識: 大規模モデルの時代にSSLを再考する
- Authors: Song-Lin Lv, Rui Zhu, Tong Wei, Yu-Feng Li, Lan-Zhe Guo,
- Abstract要約: 半教師付き学習(SSL)は、ラベルのないデータを活用することにより、データラベリングプロセスのコストを軽減する。
事前トレーニングされたモデルを活用することは、下流タスクのラベル不足に対処するための有望な方法になる。
ラベル付きデータが制限されている場合、ラベルなしのデータや事前訓練済みのモデルに頼るべきか?
- 参考スコア(独自算出の注目度): 24.291082472792905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-supervised learning (SSL) alleviates the cost of data labeling process by exploiting unlabeled data and has achieved promising results. Meanwhile, with the development of large foundation models, exploiting pre-trained models becomes a promising way to address the label scarcity in the downstream tasks, such as various parameter-efficient fine-tuning techniques. This raises a natural yet critical question: When labeled data is limited, should we rely on unlabeled data or pre-trained models? To investigate this issue, we conduct a fair comparison between SSL methods and pre-trained models (e.g., CLIP) on representative image classification tasks under a controlled supervision budget. Experiments reveal that SSL has met its ``Waterloo" in the era of large models, as pre-trained models show both high efficiency and strong performance on widely adopted SSL benchmarks. This underscores the urgent need for SSL researchers to explore new avenues, such as deeper integration between the SSL and pre-trained models. Furthermore, we investigate the potential of Multi-Modal Large Language Models (MLLMs) in image classification tasks. Results show that, despite their massive parameter scales, MLLMs still face significant performance limitations, highlighting that even a seemingly well-studied task remains highly challenging.
- Abstract(参考訳): 半教師付き学習(SSL)は、ラベルのないデータを活用することにより、データラベリングプロセスのコストを軽減し、有望な結果を得た。
一方、大規模な基礎モデルの開発に伴い、事前訓練されたモデルを活用することは、様々なパラメータ効率の微調整技術のような下流タスクにおけるラベル不足に対処するための有望な方法となる。
ラベル付きデータが制限されている場合、ラベルなしのデータや事前訓練済みのモデルに頼るべきか?
本稿では,SSL手法と事前訓練したモデル(例えばCLIP)を,制御された管理予算の下で画像分類タスクに対して公正に比較する。
実験の結果、SSLは大規模なモデルの時代に‘Waterloo’を達成していることが明らかになった。
このことは、SSL研究者がSSLと事前訓練されたモデルとのより深い統合など、新たな方法を模索する緊急の必要性を浮き彫りにしている。
さらに,画像分類タスクにおけるMLLM(Multi-Modal Large Language Models)の可能性について検討する。
その結果、MLLMは大規模なパラメータスケールにもかかわらず、依然として大きなパフォーマンス上の制限に直面しており、よく研究されているように見えるタスクでさえも非常に困難なままであることがわかった。
関連論文リスト
- FATE: A Prompt-Tuning-Based Semi-Supervised Learning Framework for Extremely Limited Labeled Data [36.21759320898034]
ラベル付きデータとラベルなしデータの両方を活用することで、半教師付き学習(SSL)は大きな進歩を遂げた。
我々は,ラベル付きデータに極めて制限のあるシナリオに適した新しいSSLフレームワークであるFirstly Adapt, Then catEgorize (FATE)を提案する。
FATEはラベルのないデータを利用して監視信号の不足を補い、下流のタスクに転送する。
論文 参考訳(メタデータ) (2025-04-14T02:54:28Z) - Revisiting semi-supervised learning in the era of foundation models [28.414667991336067]
半教師付き学習(SSL)は、ラベル付きデータとともに豊富なラベル付きデータを活用して学習を強化する。
我々は,凍結視覚基盤モデル(VFM)が性能的に劣るSSLベンチマークデータセットを開発し,代表的なSSLメソッドを体系的に評価する。
ラベル付きデータのみを用いたパラメータ効率細調整(PEFT)は、ラベルなしデータを活用することなく、SSLのパフォーマンスとよく一致します。
ノイズの多い擬似ラベルの悪名高い問題を克服するため,より堅牢な擬似ラベルを生成するために,複数のPEFTアプローチとVFMバックボーンのアンサンブルを提案する。
論文 参考訳(メタデータ) (2025-03-12T18:01:10Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Self-supervised learning for skin cancer diagnosis with limited training data [0.196629787330046]
自己教師付き学習(SSL)は、限られたトレーニングデータを持つシナリオに対するImageNetの標準教師付き事前トレーニングの代替である。
textitfurther SSL をタスク固有のデータセットで事前トレーニングし、その実装は教師あり転送学習によって動機づけられる。
タスク固有のデータに対するより最小限のSSL事前トレーニングは、限られたラベル付きデータによる医療画像分類タスクにおいて、ImageNet上の大規模なSSL事前トレーニングと同じくらい効果的である。
論文 参考訳(メタデータ) (2024-01-01T08:11:38Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Few-shot Learning via Dependency Maximization and Instance Discriminant
Analysis [21.8311401851523]
そこで本研究では,カテゴリ毎にラベル付きデータが極めて少ない新しいオブジェクトの認識をモデルが学習する,数ショットの学習問題について検討する。
本稿では,少数ショット処理に伴うラベルなしデータを利用して,少数ショット性能を向上させるための簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T02:19:01Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。