論文の概要: ELFS: Enhancing Label-Free Coreset Selection via Clustering-based Pseudo-Labeling
- arxiv url: http://arxiv.org/abs/2406.04273v1
- Date: Thu, 6 Jun 2024 17:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:40:27.637412
- Title: ELFS: Enhancing Label-Free Coreset Selection via Clustering-based Pseudo-Labeling
- Title(参考訳): ELFS:クラスタリングベースの擬似ラベルによるラベルフリーコアセット選択の強化
- Authors: Haizhong Zheng, Elisa Tsai, Yifu Lu, Jiachen Sun, Brian R. Bartoldson, Bhavya Kailkhura, Atul Prakash,
- Abstract要約: 高性能なSOTA(State-of-the-art)コアセット選択手法では,データセット全体に対して基調ラベルが必要となる。
ELFSは,ラベルのない新しいコアセット選択法である。
ELFS は SOTA ラベルのないベースラインより一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 22.780725652106
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High-quality human-annotated data is crucial for modern deep learning pipelines, yet the human annotation process is both costly and time-consuming. Given a constrained human labeling budget, selecting an informative and representative data subset for labeling can significantly reduce human annotation effort. Well-performing state-of-the-art (SOTA) coreset selection methods require ground-truth labels over the whole dataset, failing to reduce the human labeling burden. Meanwhile, SOTA label-free coreset selection methods deliver inferior performance due to poor geometry-based scores. In this paper, we introduce ELFS, a novel label-free coreset selection method. ELFS employs deep clustering to estimate data difficulty scores without ground-truth labels. Furthermore, ELFS uses a simple but effective double-end pruning method to mitigate bias on calculated scores, which further improves the performance on selected coresets. We evaluate ELFS on five vision benchmarks and show that ELFS consistently outperforms SOTA label-free baselines. For instance, at a 90% pruning rate, ELFS surpasses the best-performing baseline by 5.3% on CIFAR10 and 7.1% on CIFAR100. Moreover, ELFS even achieves comparable performance to supervised coreset selection at low pruning rates (e.g., 30% and 50%) on CIFAR10 and ImageNet-1K.
- Abstract(参考訳): 高品質な人間アノテーション付きデータは、現代のディープラーニングパイプラインにとって不可欠だが、人間のアノテーションプロセスは費用と時間の両方を要している。
制限された人間のラベル付け予算が与えられた場合、ラベル付けのための情報的および代表的なデータサブセットを選択することで、人間のアノテーションの労力を大幅に削減することができる。
高性能なSOTA(State-of-the-art)コアセット選択手法では、データセット全体に対して地味なラベルを必要とするため、人間のラベル付けの負担を軽減できない。
一方、SOTAラベルなしコアセット選択法は、幾何ベースのスコアが低いため、性能が劣る。
本稿では,新しいラベルフリーコアセット選択法であるELFSを紹介する。
ELFSは、深層クラスタリングを使用して、地味ラベルなしでデータの難易度を推定する。
さらに、ELFSは、計算されたスコアに対するバイアスを軽減するために、単純だが効果的なダブルエンドプルーニング法を使用し、選択したコアセットの性能をさらに向上する。
我々は,ELFSを5つのビジョンベンチマークで評価し,ELFSがSOTAラベルのないベースラインを一貫して上回っていることを示す。
例えば、90%のプルーニングレートで、ELFSはCIFAR10では5.3%、CIFAR100では7.1%という最高のパフォーマンスのベースラインを上回っている。
さらに、ELFSは、CIFAR10とImageNet-1Kで低プルーニングレート(例:30%、50%)で、教師付きコアセット選択に匹敵する性能を達成している。
関連論文リスト
- Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Speculative Coreset Selection for Task-Specific Fine-tuning [35.15159197063161]
タスク固有の微調整は、大規模言語モデル(LLM)の展開に不可欠である
本稿では,投機的コアセット選択法であるSTAFFを紹介する。
STAFFは,SOTA法の性能を最大54.3%向上し,選択オーバーヘッドを70.5%低減することを示した。
論文 参考訳(メタデータ) (2024-10-02T07:42:25Z) - Box-Level Active Detection [47.41635810670186]
ボックスベース1サイクル当たりの予算を制御する,ボックスレベルのアクティブ検出フレームワークを導入する。
我々は,人間のアノテーションとモデルインテリジェンスの両方を活用するために,補完的擬似アクティブストラテジー(ComPAS)を提案する。
ComPASは、統一された設定で4つの設定で10の競争相手を上回っている。
論文 参考訳(メタデータ) (2023-03-23T08:06:10Z) - Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。
We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文 参考訳(メタデータ) (2022-08-02T19:32:08Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Unsupervised Selective Labeling for More Effective Semi-Supervised
Learning [46.414510522978425]
教師なしの選択的なラベル付けは、与えられたラベル付きデータの最先端のアクティブラーニングよりもSSLメソッドを一貫して改善する。
私たちの仕事は、実用的で効率的なSSLの新しい標準を設定します。
論文 参考訳(メタデータ) (2021-10-06T18:25:50Z) - A new weakly supervised approach for ALS point cloud semantic
segmentation [1.4620086904601473]
本稿では,ALS点雲のセマンティックセグメンテーションのための,ディープラーニングに基づく弱教師付きフレームワークを提案する。
不完全でスパースなラベルの対象となるラベルのないデータから潜在的情報を利用する。
本手法は, 総合精度が83.0%, 平均F1スコアが70.0%であり, それぞれ6.9%, 12.8%増加した。
論文 参考訳(メタデータ) (2021-10-04T14:00:23Z) - Delving Deep into Label Smoothing [112.24527926373084]
ディープニューラルネットワーク(DNN)の効果的な正規化ツールとしてのラベル平滑化
対象カテゴリのモデル予測の統計に基づいてソフトラベルを生成するオンラインラベル平滑化(OLS)戦略を提案する。
論文 参考訳(メタデータ) (2020-11-25T08:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。