論文の概要: Foundation Model Makes Clustering a Better Initialization for Active
Learning
- arxiv url: http://arxiv.org/abs/2402.02561v1
- Date: Sun, 4 Feb 2024 16:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:04:07.091223
- Title: Foundation Model Makes Clustering a Better Initialization for Active
Learning
- Title(参考訳): foundation modelは、アクティブラーニングのためのクラスタリングをより良い初期化にする
- Authors: Han Yuan and Chuan Hong
- Abstract要約: アクティブラーニングは、アノテートするためにラベルのないデータセットから最も情報に富んだサンプルを選択する。
以前の研究のほとんどはランダムサンプリングやナイーブクラスタリングに頼っている。
本稿では,基礎モデルとクラスタリング手法を統合して,アクティブな学習のためのサンプルを選択することを提案する。
- 参考スコア(独自算出の注目度): 6.626575189360845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning selects the most informative samples from the unlabeled
dataset to annotate in the context of a limited annotation budget. While
numerous methods have been proposed for subsequent sample selection based on an
initialized model, scant attention has been paid to the indispensable phase of
active learning: selecting samples for model initialization. Most of the
previous studies resort to random sampling or naive clustering. However, random
sampling is prone to fluctuation, and naive clustering suffers from convergence
speed, particularly when dealing with high-dimensional data such as imaging
data. In this work, we propose to integrate foundation models with clustering
methods to select samples for active learning initialization. Foundation models
refer to those trained on massive datasets by the self-supervised paradigm and
capable of generating informative and compacted embeddings for various
downstream tasks. Leveraging these embeddings to replace raw features such as
pixel values, clustering quickly converges and identifies better initial
samples. For a comprehensive comparison, we included a classic
ImageNet-supervised model to acquire embeddings. Experiments on two clinical
tasks of image classification and segmentation demonstrated that foundation
model-based clustering efficiently pinpointed informative initial samples,
leading to models showcasing enhanced performance than the baseline methods. We
envisage that this study provides an effective paradigm for future active
learning.
- Abstract(参考訳): アクティブラーニングは、限定されたアノテーション予算の文脈で注釈付きデータセットから最も有益なサンプルを選択する。
初期化モデルに基づくサンプル選択のための多くの手法が提案されているが、アクティブラーニングの必須フェーズであるモデル初期化のためのサンプルの選択に注意が払われている。
以前の研究のほとんどはランダムサンプリングやナイーブクラスタリングに頼っている。
しかし、ランダムサンプリングは変動しがちであり、特に画像データなどの高次元データを扱う場合、ナイーブクラスタリングは収束速度に悩まされる。
本研究では,アクティブラーニング初期化のためのサンプル選択のための基盤モデルとクラスタリング手法を統合することを提案する。
基礎モデルは、自己監督パラダイムによって大規模データセットで訓練されたものを指し、様々な下流タスクに情報とコンパクトな埋め込みを生成することができる。
これらの埋め込みを利用してピクセル値などの生の機能を置き換えることで、クラスタリングは素早く収束し、より良い初期サンプルを識別する。
総合的な比較のために、埋め込みを取得するための古典的なImageNet教師付きモデルを含む。
画像分類とセグメンテーションの2つの臨床課題に関する実験により、基礎モデルに基づくクラスタリングが情報的初期サンプルを効果的にピンポイントし、ベースライン法よりも優れた性能を示した。
我々は,本研究が将来のアクティブラーニングに有効なパラダイムを提供すると考えている。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Adaptive Intra-Class Variation Contrastive Learning for Unsupervised Person Re-Identification [10.180143197144803]
AdaInCVと呼ばれる教師なしRe-IDのための適応型クラス内変動コントラスト学習アルゴリズムを提案する。
このアルゴリズムは,クラスタリング後のクラス内変動を考慮し,各クラスのモデルの学習能力を定量的に評価する。
より具体的には、Adaptive Sample Mining (AdaSaM)とAdaptive Outlier Filter (AdaOF)の2つの新しい戦略が提案されている。
論文 参考訳(メタデータ) (2024-04-06T15:48:14Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Non-iterative optimization of pseudo-labeling thresholds for training
object detection models from multiple datasets [2.1485350418225244]
低コストデータセットの集合からオブジェクト検出を学習するために、擬似ラベル閾値を最適化する非定型的手法を提案する。
提案手法はCOCOおよびVOCデータセット上の格子探索に匹敵するmAPを実現することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-19T00:31:34Z) - ST-CoNAL: Consistency-Based Acquisition Criterion Using Temporal
Self-Ensemble for Active Learning [7.94190631530826]
トレーニングプロセスの効率を最大化するためには、アクティブラーニング(AL)がますます重要になっている。
学生教師の一貫性に基づくALアルゴリズム(ST-CoNAL)を提案する。
CIFAR-10、CIFAR-100、Caltech-256、Tiny ImageNetの画像分類タスクに対して行われた実験は、提案したSTCoNALが既存の取得方法よりも大幅に優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-05T17:25:59Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。
実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文 参考訳(メタデータ) (2020-08-06T05:52:59Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。