Fugu-MT 論文翻訳(概要): ELFS: Enhancing Label-Free Coreset Selection via Clustering-based Pseudo-Labeling

論文の概要: ELFS: Enhancing Label-Free Coreset Selection via Clustering-based Pseudo-Labeling

arxiv url: http://arxiv.org/abs/2406.04273v1
Date: Thu, 6 Jun 2024 17:23:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 13:40:27.637412
Title: ELFS: Enhancing Label-Free Coreset Selection via Clustering-based Pseudo-Labeling
Title（参考訳）: ELFS:クラスタリングベースの擬似ラベルによるラベルフリーコアセット選択の強化
Authors: Haizhong Zheng, Elisa Tsai, Yifu Lu, Jiachen Sun, Brian R. Bartoldson, Bhavya Kailkhura, Atul Prakash,
Abstract要約: 高性能なSOTA(State-of-the-art)コアセット選択手法では,データセット全体に対して基調ラベルが必要となる。 ELFSは,ラベルのない新しいコアセット選択法である。 ELFS は SOTA ラベルのないベースラインより一貫して優れていることを示す。
参考スコア（独自算出の注目度）: 22.780725652106
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: High-quality human-annotated data is crucial for modern deep learning pipelines, yet the human annotation process is both costly and time-consuming. Given a constrained human labeling budget, selecting an informative and representative data subset for labeling can significantly reduce human annotation effort. Well-performing state-of-the-art (SOTA) coreset selection methods require ground-truth labels over the whole dataset, failing to reduce the human labeling burden. Meanwhile, SOTA label-free coreset selection methods deliver inferior performance due to poor geometry-based scores. In this paper, we introduce ELFS, a novel label-free coreset selection method. ELFS employs deep clustering to estimate data difficulty scores without ground-truth labels. Furthermore, ELFS uses a simple but effective double-end pruning method to mitigate bias on calculated scores, which further improves the performance on selected coresets. We evaluate ELFS on five vision benchmarks and show that ELFS consistently outperforms SOTA label-free baselines. For instance, at a 90% pruning rate, ELFS surpasses the best-performing baseline by 5.3% on CIFAR10 and 7.1% on CIFAR100. Moreover, ELFS even achieves comparable performance to supervised coreset selection at low pruning rates (e.g., 30% and 50%) on CIFAR10 and ImageNet-1K.
Abstract（参考訳）: 高品質な人間アノテーション付きデータは、現代のディープラーニングパイプラインにとって不可欠だが、人間のアノテーションプロセスは費用と時間の両方を要している。制限された人間のラベル付け予算が与えられた場合、ラベル付けのための情報的および代表的なデータサブセットを選択することで、人間のアノテーションの労力を大幅に削減することができる。高性能なSOTA(State-of-the-art)コアセット選択手法では、データセット全体に対して地味なラベルを必要とするため、人間のラベル付けの負担を軽減できない。一方、SOTAラベルなしコアセット選択法は、幾何ベースのスコアが低いため、性能が劣る。本稿では,新しいラベルフリーコアセット選択法であるELFSを紹介する。 ELFSは、深層クラスタリングを使用して、地味ラベルなしでデータの難易度を推定する。さらに、ELFSは、計算されたスコアに対するバイアスを軽減するために、単純だが効果的なダブルエンドプルーニング法を使用し、選択したコアセットの性能をさらに向上する。我々は,ELFSを5つのビジョンベンチマークで評価し,ELFSがSOTAラベルのないベースラインを一貫して上回っていることを示す。例えば、90%のプルーニングレートで、ELFSはCIFAR10では5.3%、CIFAR100では7.1%という最高のパフォーマンスのベースラインを上回っている。さらに、ELFSは、CIFAR10とImageNet-1Kで低プルーニングレート(例:30%、50%)で、教師付きコアセット選択に匹敵する性能を達成している。

関連論文リスト

DynClean: Training Dynamics-based Label Cleaning for Distantly-Supervised Named Entity Recognition [49.54155332262579]
本稿では,トレーニングの進行に伴うモデルの挙動を生かした,トレーニングダイナミクスに基づくラベルクリーニング手法を提案する。また,遠隔ラベルの誤りを見つけるための自動しきい値推定手法も導入する。提案手法は,4つのデータセットにまたがる高度なDS-NER手法よりも優れている。
論文参考訳（メタデータ） (2025-04-06T20:54:42Z)
Zero-Shot Coreset Selection: Efficient Pruning for Unlabeled Data [22.45812577928658]
Coreset選択は、モデルをトレーニングするデータの代表的なサブセットを見つけることを目的としている。 ZCoreは、真実ラベルや候補データによるトレーニングなしに、コアセットを効率的に選択する手法である。我々は、4つのデータセット上でZCoreを評価し、いくつかの最先端のラベルベースの手法より優れています。
論文参考訳（メタデータ） (2024-11-22T21:17:49Z)
Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-25T04:00:45Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Speculative Coreset Selection for Task-Specific Fine-tuning [35.15159197063161]
タスク固有の微調整は、大規模言語モデル(LLM)の展開に不可欠である本稿では,投機的コアセット選択法であるSTAFFを紹介する。 STAFFは,SOTA法の性能を最大54.3%向上し,選択オーバーヘッドを70.5%低減することを示した。
論文参考訳（メタデータ） (2024-10-02T07:42:25Z)
DiffusAL: Coupling Active Learning with Graph Diffusion for Label-Efficient Node Classification [1.0602247913671219]
我々はDiffusALと呼ばれる新しいグラフ学習手法を導入し、多様な設定において大きな堅牢性を示す。取得とトレーニングの計算のほとんどは事前処理が可能であり、Diffusalは多様な選択基準を組み合わせたアプローチに比べて効率的である。各種ベンチマークデータセットを用いた実験により, 従来の手法と異なり, テスト対象のデータセットとラベルの予算の100%において, ランダム選択を著しく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2023-07-31T20:30:13Z)
Box-Level Active Detection [47.41635810670186]
ボックスベース1サイクル当たりの予算を制御する,ボックスレベルのアクティブ検出フレームワークを導入する。我々は,人間のアノテーションとモデルインテリジェンスの両方を活用するために,補完的擬似アクティブストラテジー(ComPAS)を提案する。 ComPASは、統一された設定で4つの設定で10の競争相手を上回っている。
論文参考訳（メタデータ） (2023-03-23T08:06:10Z)
Aggregating Soft Labels from Crowd Annotations Improves Uncertainty Estimation Under Distribution Shift [43.69579155156202]
本稿では,ドメイン外環境での集団ラベルからの学習について,大規模な実証的研究を行った。タスク間の一貫したパフォーマンスを実現するために,ソフトラベルを単純な平均で集約することを提案する。
論文参考訳（メタデータ） (2022-12-19T12:40:18Z)
Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。 We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文参考訳（メタデータ） (2022-08-02T19:32:08Z)
Boosting Facial Expression Recognition by A Semi-Supervised Progressive Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。 RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文参考訳（メタデータ） (2022-05-28T07:47:53Z)
UNICON: Combating Label Noise Through Uniform Selection and Contrastive Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。 90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文参考訳（メタデータ） (2022-03-28T07:36:36Z)
PointMatch: A Consistency Training Framework for Weakly Supervised Semantic Segmentation of 3D Point Clouds [117.77841399002666]
本稿では,データ自体から十分な情報を探索するために整合性正規化を適用することで,データとラベルの両面に立つ新しいフレームワークであるPointMatchを提案する。提案したPointMatchは、ScanNet-v2データセットとS3DISデータセットの両方で、様々な弱い教師付きスキームの下で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-02-22T07:26:31Z)
Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文参考訳（メタデータ） (2022-02-15T02:14:33Z)
Unsupervised Selective Labeling for More Effective Semi-Supervised Learning [46.414510522978425]
教師なしの選択的なラベル付けは、与えられたラベル付きデータの最先端のアクティブラーニングよりもSSLメソッドを一貫して改善する。私たちの仕事は、実用的で効率的なSSLの新しい標準を設定します。
論文参考訳（メタデータ） (2021-10-06T18:25:50Z)
Iterative label cleaning for transductive and semi-supervised few-shot learning [16.627512688664513]
少ないショットの学習は、新しいタスクが監督とデータの両方を限定して解決されるような、表現の学習と知識の獲得に相当します。ラベル付きおよびラベルなしデータ分布の多様体構造を利用して擬似ラベルを予測するアルゴリズムを提案する。私たちのソリューションは、4つのベンチマークデータセットのアート結果の状態を上回るか、一致します。
論文参考訳（メタデータ） (2020-12-14T21:54:11Z)
Delving Deep into Label Smoothing [112.24527926373084]
ディープニューラルネットワーク(DNN)の効果的な正規化ツールとしてのラベル平滑化対象カテゴリのモデル予測の統計に基づいてソフトラベルを生成するオンラインラベル平滑化(OLS)戦略を提案する。
論文参考訳（メタデータ） (2020-11-25T08:03:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。