論文の概要: ELFS: Enhancing Label-Free Coreset Selection via Clustering-based Pseudo-Labeling
- arxiv url: http://arxiv.org/abs/2406.04273v1
- Date: Thu, 6 Jun 2024 17:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:40:27.637412
- Title: ELFS: Enhancing Label-Free Coreset Selection via Clustering-based Pseudo-Labeling
- Title(参考訳): ELFS:クラスタリングベースの擬似ラベルによるラベルフリーコアセット選択の強化
- Authors: Haizhong Zheng, Elisa Tsai, Yifu Lu, Jiachen Sun, Brian R. Bartoldson, Bhavya Kailkhura, Atul Prakash,
- Abstract要約: 高性能なSOTA(State-of-the-art)コアセット選択手法では,データセット全体に対して基調ラベルが必要となる。
ELFSは,ラベルのない新しいコアセット選択法である。
ELFS は SOTA ラベルのないベースラインより一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 22.780725652106
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High-quality human-annotated data is crucial for modern deep learning pipelines, yet the human annotation process is both costly and time-consuming. Given a constrained human labeling budget, selecting an informative and representative data subset for labeling can significantly reduce human annotation effort. Well-performing state-of-the-art (SOTA) coreset selection methods require ground-truth labels over the whole dataset, failing to reduce the human labeling burden. Meanwhile, SOTA label-free coreset selection methods deliver inferior performance due to poor geometry-based scores. In this paper, we introduce ELFS, a novel label-free coreset selection method. ELFS employs deep clustering to estimate data difficulty scores without ground-truth labels. Furthermore, ELFS uses a simple but effective double-end pruning method to mitigate bias on calculated scores, which further improves the performance on selected coresets. We evaluate ELFS on five vision benchmarks and show that ELFS consistently outperforms SOTA label-free baselines. For instance, at a 90% pruning rate, ELFS surpasses the best-performing baseline by 5.3% on CIFAR10 and 7.1% on CIFAR100. Moreover, ELFS even achieves comparable performance to supervised coreset selection at low pruning rates (e.g., 30% and 50%) on CIFAR10 and ImageNet-1K.
- Abstract(参考訳): 高品質な人間アノテーション付きデータは、現代のディープラーニングパイプラインにとって不可欠だが、人間のアノテーションプロセスは費用と時間の両方を要している。
制限された人間のラベル付け予算が与えられた場合、ラベル付けのための情報的および代表的なデータサブセットを選択することで、人間のアノテーションの労力を大幅に削減することができる。
高性能なSOTA(State-of-the-art)コアセット選択手法では、データセット全体に対して地味なラベルを必要とするため、人間のラベル付けの負担を軽減できない。
一方、SOTAラベルなしコアセット選択法は、幾何ベースのスコアが低いため、性能が劣る。
本稿では,新しいラベルフリーコアセット選択法であるELFSを紹介する。
ELFSは、深層クラスタリングを使用して、地味ラベルなしでデータの難易度を推定する。
さらに、ELFSは、計算されたスコアに対するバイアスを軽減するために、単純だが効果的なダブルエンドプルーニング法を使用し、選択したコアセットの性能をさらに向上する。
我々は,ELFSを5つのビジョンベンチマークで評価し,ELFSがSOTAラベルのないベースラインを一貫して上回っていることを示す。
例えば、90%のプルーニングレートで、ELFSはCIFAR10では5.3%、CIFAR100では7.1%という最高のパフォーマンスのベースラインを上回っている。
さらに、ELFSは、CIFAR10とImageNet-1Kで低プルーニングレート(例:30%、50%)で、教師付きコアセット選択に匹敵する性能を達成している。
関連論文リスト
- DiffusAL: Coupling Active Learning with Graph Diffusion for
Label-Efficient Node Classification [1.0602247913671219]
我々はDiffusALと呼ばれる新しいグラフ学習手法を導入し、多様な設定において大きな堅牢性を示す。
取得とトレーニングの計算のほとんどは事前処理が可能であり、Diffusalは多様な選択基準を組み合わせたアプローチに比べて効率的である。
各種ベンチマークデータセットを用いた実験により, 従来の手法と異なり, テスト対象のデータセットとラベルの予算の100%において, ランダム選択を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-07-31T20:30:13Z) - Box-Level Active Detection [47.41635810670186]
ボックスベース1サイクル当たりの予算を制御する,ボックスレベルのアクティブ検出フレームワークを導入する。
我々は,人間のアノテーションとモデルインテリジェンスの両方を活用するために,補完的擬似アクティブストラテジー(ComPAS)を提案する。
ComPASは、統一された設定で4つの設定で10の競争相手を上回っている。
論文 参考訳(メタデータ) (2023-03-23T08:06:10Z) - End-to-End Learning to Index and Search in Large Output Spaces [95.16066833532396]
Extreme Multi-label Classification (XMC) は現実世界の問題を解決するための一般的なフレームワークである。
本稿では,木系インデックスを特殊重み付きグラフベースインデックスに緩和する新しい手法を提案する。
ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-16T01:34:17Z) - Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。
We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文 参考訳(メタデータ) (2022-08-02T19:32:08Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Unsupervised Selective Labeling for More Effective Semi-Supervised
Learning [46.414510522978425]
教師なしの選択的なラベル付けは、与えられたラベル付きデータの最先端のアクティブラーニングよりもSSLメソッドを一貫して改善する。
私たちの仕事は、実用的で効率的なSSLの新しい標準を設定します。
論文 参考訳(メタデータ) (2021-10-06T18:25:50Z) - A new weakly supervised approach for ALS point cloud semantic
segmentation [1.4620086904601473]
本稿では,ALS点雲のセマンティックセグメンテーションのための,ディープラーニングに基づく弱教師付きフレームワークを提案する。
不完全でスパースなラベルの対象となるラベルのないデータから潜在的情報を利用する。
本手法は, 総合精度が83.0%, 平均F1スコアが70.0%であり, それぞれ6.9%, 12.8%増加した。
論文 参考訳(メタデータ) (2021-10-04T14:00:23Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Delving Deep into Label Smoothing [112.24527926373084]
ディープニューラルネットワーク(DNN)の効果的な正規化ツールとしてのラベル平滑化
対象カテゴリのモデル予測の統計に基づいてソフトラベルを生成するオンラインラベル平滑化(OLS)戦略を提案する。
論文 参考訳(メタデータ) (2020-11-25T08:03:11Z) - Effective Stabilized Self-Training on Few-Labeled Graph Data [25.09247229533235]
グラフニューラルネットワーク(GNN)は、ノードのサブセットだけがクラスラベルを持つグラフ上の半教師付きノード分類のために設計されている。
既存のGNNは、ラベルの少ないグラフ上で不安定なトレーニングプロセスに悩まされており、ノード分類では性能が劣る。
本稿では,ラベル付きデータの不足に対処するため,既存のGNNに適用可能なSST(Stabilized Self-Training)を提案する。
論文 参考訳(メタデータ) (2019-10-07T09:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。