論文の概要: Foundation Model Makes Clustering A Better Initialization For Cold-Start Active Learning
- arxiv url: http://arxiv.org/abs/2402.02561v2
- Date: Wed, 27 Mar 2024 05:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 22:03:50.961334
- Title: Foundation Model Makes Clustering A Better Initialization For Cold-Start Active Learning
- Title(参考訳): コールドスタート・アクティブ・ラーニングのためのクラスタリングがイニシアチブ化
- Authors: Han Yuan, Chuan Hong,
- Abstract要約: コールドスタート能動学習のためのサンプルを選択するために,基礎モデルとクラスタリング手法を統合することを提案する。
ファンデーションモデルは、自己管理パラダイムによってトレーニングされた大量のデータセットを指す。
総合的な比較のために、埋め込みを取得するための古典的なImageNet教師付きモデルを含む。
- 参考スコア(独自算出の注目度): 5.609241010973952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning selects the most informative samples from the unlabelled dataset to annotate in the context of a limited annotation budget. While numerous methods have been proposed for subsequent sample selection based on an initialized model, scant attention has been paid to the indispensable phase of active learning: selecting samples for model cold-start initialization. Most of the previous studies resort to random sampling or naive clustering. However, random sampling is prone to fluctuation, and naive clustering suffers from convergence speed, particularly when dealing with high-dimensional data such as imaging data. In this work, we propose to integrate foundation models with clustering methods to select samples for cold-start active learning initialization. Foundation models refer to those trained on massive datasets by the self-supervised paradigm and capable of generating informative and compacted embeddings for various downstream tasks. Leveraging these embeddings to replace raw features such as pixel values, clustering quickly converges and identifies better initial samples. For a comprehensive comparison, we included a classic ImageNet-supervised model to acquire embeddings. Experiments on two clinical tasks of image classification and segmentation demonstrated that foundation model-based clustering efficiently pinpointed informative initial samples, leading to models showcasing enhanced performance than the baseline methods. We envisage that this study provides an effective paradigm for future cold-start active learning.
- Abstract(参考訳): アクティブラーニングは、制限されたアノテーション予算の文脈で注釈を付けるために、ラベルのないデータセットから最も情報に富んだサンプルを選択する。
初期化モデルに基づくサンプル選択のための多くの手法が提案されているが、アクティブラーニングにおいて欠かせない段階、すなわちモデルコールドスタート初期化のためのサンプルを選択することに注意が払われている。
以前の研究のほとんどはランダムサンプリングやナイーブクラスタリングに頼っている。
しかし、ランダムサンプリングは変動しがちであり、特に画像データなどの高次元データを扱う場合、ナイーブクラスタリングは収束速度に悩まされる。
本研究では,冷間開始型アクティブラーニング初期化のためのサンプルを選択するために,基礎モデルとクラスタリング手法を統合することを提案する。
ファンデーションモデルは、自己監督パラダイムによって訓練された大量のデータセットに言及し、様々な下流タスクに対して情報的かつコンパクトな埋め込みを生成することができる。
これらの埋め込みを活用して、ピクセル値などの生の機能を置き換え、クラスタリングはすぐに収束し、より良い初期サンプルを識別する。
総合的な比較のために、埋め込みを取得するための古典的なImageNet教師付きモデルを含む。
画像分類とセグメンテーションの2つの臨床課題に関する実験により、基礎モデルに基づくクラスタリングが情報的初期サンプルを効果的にピンポイントし、ベースライン法よりも優れた性能を示すモデルが示された。
本研究は,今後の冷間開始型アクティブラーニングに有効なパラダイムを提供するものと考えられる。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Adaptive Intra-Class Variation Contrastive Learning for Unsupervised Person Re-Identification [10.180143197144803]
AdaInCVと呼ばれる教師なしRe-IDのための適応型クラス内変動コントラスト学習アルゴリズムを提案する。
このアルゴリズムは,クラスタリング後のクラス内変動を考慮し,各クラスのモデルの学習能力を定量的に評価する。
より具体的には、Adaptive Sample Mining (AdaSaM)とAdaptive Outlier Filter (AdaOF)の2つの新しい戦略が提案されている。
論文 参考訳(メタデータ) (2024-04-06T15:48:14Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Non-iterative optimization of pseudo-labeling thresholds for training
object detection models from multiple datasets [2.1485350418225244]
低コストデータセットの集合からオブジェクト検出を学習するために、擬似ラベル閾値を最適化する非定型的手法を提案する。
提案手法はCOCOおよびVOCデータセット上の格子探索に匹敵するmAPを実現することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-19T00:31:34Z) - ST-CoNAL: Consistency-Based Acquisition Criterion Using Temporal
Self-Ensemble for Active Learning [7.94190631530826]
トレーニングプロセスの効率を最大化するためには、アクティブラーニング(AL)がますます重要になっている。
学生教師の一貫性に基づくALアルゴリズム(ST-CoNAL)を提案する。
CIFAR-10、CIFAR-100、Caltech-256、Tiny ImageNetの画像分類タスクに対して行われた実験は、提案したSTCoNALが既存の取得方法よりも大幅に優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-05T17:25:59Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。
実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文 参考訳(メタデータ) (2020-08-06T05:52:59Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。