論文の概要: Zero-Shot Coreset Selection: Efficient Pruning for Unlabeled Data
- arxiv url: http://arxiv.org/abs/2411.15349v1
- Date: Fri, 22 Nov 2024 21:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:22.879590
- Title: Zero-Shot Coreset Selection: Efficient Pruning for Unlabeled Data
- Title(参考訳): Zero-Shot Coreset Selection: ラベルなしデータの効率的なプルーニング
- Authors: Brent A. Griffin, Jacob Marks, Jason J. Corso,
- Abstract要約: Coreset選択は、モデルをトレーニングするデータの代表的なサブセットを見つけることを目的としている。
ZCoreは、真実ラベルや候補データによるトレーニングなしに、コアセットを効率的に選択する手法である。
我々は、4つのデータセット上でZCoreを評価し、いくつかの最先端のラベルベースの手法より優れています。
- 参考スコア(独自算出の注目度): 22.45812577928658
- License:
- Abstract: Deep learning increasingly relies on massive data with substantial costs for storage, annotation, and model training. To reduce these costs, coreset selection aims to find a representative subset of data to train models while ideally performing on par with the full data training. State-of-the-art coreset methods use carefully-designed criteria to quantify the importance of each data example via ground truth labels and dataset-specific training, then select examples whose scores lie in a certain range to construct a coreset. These methods work well in their respective settings, however, they cannot select data that are unlabeled, which is the majority of real-world data. To that end, this paper motivates and formalizes the problem of unlabeled coreset selection to enable greater scale and reduce annotation costs for deep learning. As a solution, we develop Zero-Shot Coreset Selection (ZCore), a method that efficiently selects coresets without ground truth labels or training on candidate data. Instead, ZCore uses existing foundation models to generate a zero-shot embedding space for unlabeled data, then quantifies the relative importance of each example based on overall coverage and redundancy within the embedding distribution. We evaluate ZCore on four datasets and outperform several state-of-the-art label-based methods, leading to a strong baseline for future research in unlabeled coreset selection. On ImageNet, ZCore selections achieve a downstream model accuracy of 53.99% with only 10% training data, which outperforms label-based methods while removing annotation requirements for 1.15 million images. Our code is publicly available at https://github.com/voxel51/zcore.
- Abstract(参考訳): ディープラーニングは、ストレージ、アノテーション、モデルトレーニングのかなりのコストで、ますます大量のデータに依存している。
これらのコストを削減するため、コアセットの選択は、モデルをトレーニングするためのデータの代表的なサブセットを見つけることを目的としている。
State-of-the-art-the-art coresetメソッドは、慎重に設計された基準を使用して、基底真理ラベルとデータセット固有のトレーニングを通じて、各データサンプルの重要性を定量化し、スコアが特定の範囲にあるサンプルを選択して、コアセットを構築する。
これらの手法はそれぞれの設定でうまく機能するが、実際のデータの大部分であるラベル付けされていないデータを選択することはできない。
そこで本稿では,未ラベルのコアセット選択の問題を動機付け,形式化し,より大規模化と深層学習のためのアノテーションコストの低減を図る。
そこで本研究では,ゼロショットコアセット選択法(ZCore)を開発した。
その代わり、ZCoreは既存の基礎モデルを使用してラベルなしデータのゼロショット埋め込みスペースを生成し、埋め込み分布の全体カバレッジと冗長性に基づいて、各サンプルの相対的重要性を定量化する。
我々は、4つのデータセット上でZCoreを評価し、いくつかの最先端のラベルベースの手法を上回り、未ラベルコアセット選択における将来の研究の強力なベースラインとなる。
ImageNetでは、ZCoreセレクションはトレーニングデータ10%で53.99%のダウンストリームモデルの精度を実現しており、ラベルベースの手法よりも優れており、115万枚の画像のアノテーション要求を除去している。
私たちのコードはhttps://github.com/voxel51/zcore.comで公開されています。
関連論文リスト
- TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Coverage-centric Coreset Selection for High Pruning Rates [11.18635356469467]
ワンショットコアセット選択は、プルーニング率からトレーニングデータのサブセットを選択することを目的としており、その後、そのサブセットでのみトレーニングされたモデルに対して高い精度を達成することができる。
最先端のコアセット選択方法は通常、各例に重要スコアを割り当て、コアセットを形成する上で最も重要な例を選択する。
しかし、高い刈り取り速度では、破滅的な精度の低下に悩まされ、ランダムなコアセットの選択よりもパフォーマンスが悪くなっていることが判明した。
論文 参考訳(メタデータ) (2022-10-28T00:14:00Z) - Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文 参考訳(メタデータ) (2021-06-05T21:25:03Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。