論文の概要: ELFS: Label-Free Coreset Selection with Proxy Training Dynamics
- arxiv url: http://arxiv.org/abs/2406.04273v2
- Date: Mon, 24 Feb 2025 14:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:49:49.146407
- Title: ELFS: Label-Free Coreset Selection with Proxy Training Dynamics
- Title(参考訳): ELFS: プロキシトレーニングダイナミクスを用いたラベルなしコアセット選択
- Authors: Haizhong Zheng, Elisa Tsai, Yifu Lu, Jiachen Sun, Brian R. Bartoldson, Bhavya Kailkhura, Atul Prakash,
- Abstract要約: 高性能なSOTA(State-of-the-art)コアセット選択法では,データセット全体に対して基底真理ラベルが必要となる。
新たなラベルフリーコアセット選択法であるELFS(Effective Label-Free Coreset Selection)を導入する。
4つのビジョンベンチマークでELFSを評価し,同じビジョンエンコーダが与えられた場合,ELFSはSOTAラベルのないベースラインを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 22.780725652106
- License:
- Abstract: High-quality human-annotated data is crucial for modern deep learning pipelines, yet the human annotation process is both costly and time-consuming. Given a constrained human labeling budget, selecting an informative and representative data subset for labeling can significantly reduce human annotation effort. Well-performing state-of-the-art (SOTA) coreset selection methods require ground truth labels over the whole dataset, failing to reduce the human labeling burden. Meanwhile, SOTA label-free coreset selection methods deliver inferior performance due to poor geometry-based difficulty scores. In this paper, we introduce ELFS (Effective Label-Free Coreset Selection), a novel label-free coreset selection method. ELFS significantly improves label-free coreset selection by addressing two challenges: 1) ELFS utilizes deep clustering to estimate training dynamics-based data difficulty scores without ground truth labels; 2) Pseudo-labels introduce a distribution shift in the data difficulty scores, and we propose a simple but effective double-end pruning method to mitigate bias on calculated scores. We evaluate ELFS on four vision benchmarks and show that, given the same vision encoder, ELFS consistently outperforms SOTA label-free baselines. For instance, when using SwAV as the encoder, ELFS outperforms D2 by up to 10.2% in accuracy on ImageNet-1K. We make our code publicly available on GitHub.
- Abstract(参考訳): 高品質な人間アノテーション付きデータは、現代のディープラーニングパイプラインにとって不可欠だが、人間のアノテーションプロセスは費用と時間の両方を要している。
制限された人間のラベル付け予算が与えられた場合、ラベル付けのための情報的および代表的なデータサブセットを選択することで、人間のアノテーションの労力を大幅に削減することができる。
高性能なSOTA(State-of-the-art)コアセット選択手法では、データセット全体の真理ラベルを必要とするため、人間のラベル付けの負担を軽減できない。
一方、SOTAラベルなしコアセット選択法は、幾何ベースの難易度スコアが低いため、性能が劣る。
本稿では,新しいラベルフリーコアセット選択法であるELFS(Effective Label-Free Coreset Selection)を紹介する。
ELFSは,2つの課題に対処することで,ラベルのないコアセット選択を大幅に改善する。
1) ELFSは、深層クラスタリングを用いて、基礎的真理ラベルを使わずに、トレーニング力学に基づくデータ難度スコアを推定する。
2) Pseudo-labels は,データ難易度スコアの分布変化を導入し,計算したスコアに対するバイアスを軽減するために,単純だが効果的なダブルエンドプルーニング手法を提案する。
4つのビジョンベンチマークでELFSを評価し,同じビジョンエンコーダが与えられた場合,ELFSはSOTAラベルのないベースラインを一貫して上回っていることを示す。
例えば、SwAVをエンコーダとして使用する場合、ELFSはImageNet-1Kで最大10.2%の精度でD2を上回っている。
コードをGitHubで公開しています。
関連論文リスト
- Zero-Shot Coreset Selection: Efficient Pruning for Unlabeled Data [22.45812577928658]
Coreset選択は、モデルをトレーニングするデータの代表的なサブセットを見つけることを目的としている。
ZCoreは、真実ラベルや候補データによるトレーニングなしに、コアセットを効率的に選択する手法である。
我々は、4つのデータセット上でZCoreを評価し、いくつかの最先端のラベルベースの手法より優れています。
論文 参考訳(メタデータ) (2024-11-22T21:17:49Z) - Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Speculative Coreset Selection for Task-Specific Fine-tuning [35.15159197063161]
タスク固有の微調整は、大規模言語モデル(LLM)の展開に不可欠である
本稿では,投機的コアセット選択法であるSTAFFを紹介する。
STAFFは,SOTA法の性能を最大54.3%向上し,選択オーバーヘッドを70.5%低減することを示した。
論文 参考訳(メタデータ) (2024-10-02T07:42:25Z) - Box-Level Active Detection [47.41635810670186]
ボックスベース1サイクル当たりの予算を制御する,ボックスレベルのアクティブ検出フレームワークを導入する。
我々は,人間のアノテーションとモデルインテリジェンスの両方を活用するために,補完的擬似アクティブストラテジー(ComPAS)を提案する。
ComPASは、統一された設定で4つの設定で10の競争相手を上回っている。
論文 参考訳(メタデータ) (2023-03-23T08:06:10Z) - Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。
We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文 参考訳(メタデータ) (2022-08-02T19:32:08Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Unsupervised Selective Labeling for More Effective Semi-Supervised
Learning [46.414510522978425]
教師なしの選択的なラベル付けは、与えられたラベル付きデータの最先端のアクティブラーニングよりもSSLメソッドを一貫して改善する。
私たちの仕事は、実用的で効率的なSSLの新しい標準を設定します。
論文 参考訳(メタデータ) (2021-10-06T18:25:50Z) - Delving Deep into Label Smoothing [112.24527926373084]
ディープニューラルネットワーク(DNN)の効果的な正規化ツールとしてのラベル平滑化
対象カテゴリのモデル予測の統計に基づいてソフトラベルを生成するオンラインラベル平滑化(OLS)戦略を提案する。
論文 参考訳(メタデータ) (2020-11-25T08:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。