Fugu-MT 論文翻訳(概要): Foundation Model Makes Clustering a Better Initialization for Active Learning

論文の概要: Foundation Model Makes Clustering a Better Initialization for Active Learning

arxiv url: http://arxiv.org/abs/2402.02561v1
Date: Sun, 4 Feb 2024 16:27:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 19:04:07.091223
Title: Foundation Model Makes Clustering a Better Initialization for Active Learning
Title（参考訳）: foundation modelは、アクティブラーニングのためのクラスタリングをより良い初期化にする
Authors: Han Yuan and Chuan Hong
Abstract要約: アクティブラーニングは、アノテートするためにラベルのないデータセットから最も情報に富んだサンプルを選択する。以前の研究のほとんどはランダムサンプリングやナイーブクラスタリングに頼っている。本稿では,基礎モデルとクラスタリング手法を統合して,アクティブな学習のためのサンプルを選択することを提案する。
参考スコア（独自算出の注目度）: 6.626575189360845
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Active learning selects the most informative samples from the unlabeled dataset to annotate in the context of a limited annotation budget. While numerous methods have been proposed for subsequent sample selection based on an initialized model, scant attention has been paid to the indispensable phase of active learning: selecting samples for model initialization. Most of the previous studies resort to random sampling or naive clustering. However, random sampling is prone to fluctuation, and naive clustering suffers from convergence speed, particularly when dealing with high-dimensional data such as imaging data. In this work, we propose to integrate foundation models with clustering methods to select samples for active learning initialization. Foundation models refer to those trained on massive datasets by the self-supervised paradigm and capable of generating informative and compacted embeddings for various downstream tasks. Leveraging these embeddings to replace raw features such as pixel values, clustering quickly converges and identifies better initial samples. For a comprehensive comparison, we included a classic ImageNet-supervised model to acquire embeddings. Experiments on two clinical tasks of image classification and segmentation demonstrated that foundation model-based clustering efficiently pinpointed informative initial samples, leading to models showcasing enhanced performance than the baseline methods. We envisage that this study provides an effective paradigm for future active learning.
Abstract（参考訳）: アクティブラーニングは、限定されたアノテーション予算の文脈で注釈付きデータセットから最も有益なサンプルを選択する。初期化モデルに基づくサンプル選択のための多くの手法が提案されているが、アクティブラーニングの必須フェーズであるモデル初期化のためのサンプルの選択に注意が払われている。以前の研究のほとんどはランダムサンプリングやナイーブクラスタリングに頼っている。しかし、ランダムサンプリングは変動しがちであり、特に画像データなどの高次元データを扱う場合、ナイーブクラスタリングは収束速度に悩まされる。本研究では,アクティブラーニング初期化のためのサンプル選択のための基盤モデルとクラスタリング手法を統合することを提案する。基礎モデルは、自己監督パラダイムによって大規模データセットで訓練されたものを指し、様々な下流タスクに情報とコンパクトな埋め込みを生成することができる。これらの埋め込みを利用してピクセル値などの生の機能を置き換えることで、クラスタリングは素早く収束し、より良い初期サンプルを識別する。総合的な比較のために、埋め込みを取得するための古典的なImageNet教師付きモデルを含む。画像分類とセグメンテーションの2つの臨床課題に関する実験により、基礎モデルに基づくクラスタリングが情報的初期サンプルを効果的にピンポイントし、ベースライン法よりも優れた性能を示した。我々は,本研究が将来のアクティブラーニングに有効なパラダイムを提供すると考えている。

関連論文リスト

Coreset Selection via LLM-based Concept Bottlenecks [6.857632954159568]
Coreset Selection(CS)は、データセット全体の使用に匹敵するモデルパフォーマンスを達成するトレーニングデータセットのサブセットを特定することを目的としている。本研究は,ダウンストリームモデルに依存しない人間の理解可能なテキスト属性(概念)を用いて,サンプルの難易度を計算するスコアを提案する。我々のコアセットは高いプルーニングレートでもランダムなサブセットよりも優れており、動的手法を訓練することによって得られるコアセットに匹敵するモデル性能を実現している。
論文参考訳（メタデータ） (2025-02-23T22:14:42Z)
CVOCSemRPL: Class-Variance Optimized Clustering, Semantic Information Injection and Restricted Pseudo Labeling based Improved Semi-Supervised Few-Shot Learning [4.3149314441871205]
半教師付き数発の学習環境では、かなりの量のラベルなしサンプルが利用可能である。このようなラベルのないサンプルは一般に入手しやすく、モデルの数発の学習性能を向上させるために使用できる。本稿では,クラスタリングを改善するためにモデルが学習した表現の改善に焦点をあて,その結果,モデル性能について述べる。
論文参考訳（メタデータ） (2025-01-24T11:14:35Z)
Class Balance Matters to Active Class-Incremental Learning [61.11786214164405]
まず、大規模な未ラベルデータのプールから始めて、インクリメンタルな学習のための最も情報に富んだサンプルを注釈付けします。そこで我々は,クラスバランスと情報提供性を両立させるため,クラスバランス選択(CBS)戦略を提案する。我々のCBSは、プリトレーニング済みモデルとプロンプトチューニング技術に基づいて、これらのCILメソッドに接続し、再生することができる。
論文参考訳（メタデータ） (2024-12-09T16:37:27Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文参考訳（メタデータ） (2024-04-14T01:51:11Z)
Adaptive Intra-Class Variation Contrastive Learning for Unsupervised Person Re-Identification [10.180143197144803]
AdaInCVと呼ばれる教師なしRe-IDのための適応型クラス内変動コントラスト学習アルゴリズムを提案する。このアルゴリズムは,クラスタリング後のクラス内変動を考慮し,各クラスのモデルの学習能力を定量的に評価する。より具体的には、Adaptive Sample Mining (AdaSaM)とAdaptive Outlier Filter (AdaOF)の2つの新しい戦略が提案されている。
論文参考訳（メタデータ） (2024-04-06T15:48:14Z)
A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文参考訳（メタデータ） (2024-03-28T14:44:44Z)
Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文参考訳（メタデータ） (2023-05-22T23:43:23Z)
Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。 CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:28:29Z)
Non-iterative optimization of pseudo-labeling thresholds for training object detection models from multiple datasets [2.1485350418225244]
低コストデータセットの集合からオブジェクト検出を学習するために、擬似ラベル閾値を最適化する非定型的手法を提案する。提案手法はCOCOおよびVOCデータセット上の格子探索に匹敵するmAPを実現することを実験的に実証した。
論文参考訳（メタデータ） (2022-10-19T00:31:34Z)
ST-CoNAL: Consistency-Based Acquisition Criterion Using Temporal Self-Ensemble for Active Learning [7.94190631530826]
トレーニングプロセスの効率を最大化するためには、アクティブラーニング(AL)がますます重要になっている。学生教師の一貫性に基づくALアルゴリズム(ST-CoNAL)を提案する。 CIFAR-10、CIFAR-100、Caltech-256、Tiny ImageNetの画像分類タスクに対して行われた実験は、提案したSTCoNALが既存の取得方法よりも大幅に優れた性能を示した。
論文参考訳（メタデータ） (2022-07-05T17:25:59Z)
Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。本稿では,新しい汎用能動学習法(GEAL)を提案する。提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文参考訳（メタデータ） (2021-12-15T08:35:28Z)
Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文参考訳（メタデータ） (2020-08-06T05:52:59Z)
Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2020-06-25T07:36:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。