論文の概要: Class-Proportional Coreset Selection for Difficulty-Separable Data
- arxiv url: http://arxiv.org/abs/2507.10904v2
- Date: Wed, 13 Aug 2025 19:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.436875
- Title: Class-Proportional Coreset Selection for Difficulty-Separable Data
- Title(参考訳): 難易度分離データに対するクラス固有コアセットの選択
- Authors: Elisa Tsai, Haizhong Zheng, Atul Prakash,
- Abstract要約: ネットワーク侵入検出や医用画像などの領域では,データのクラスタ化が困難であることが多い。
これをクラス微分可分性として定式化し、クラス微分可分性係数を導入する。
結果から,クラス差分性を明示的にモデル化することで,より効率的で堅牢で一般化可能なデータプルーニングが実現されることが示された。
- 参考スコア(独自算出の注目度): 6.999279165862482
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High-quality training data is essential for building reliable and efficient machine learning systems. One-shot coreset selection addresses this by pruning the dataset while maintaining or even improving model performance, often relying on training-dynamics-based data difficulty scores. However, most existing methods implicitly assume class-wise homogeneity in data difficulty, overlooking variation in data difficulty across different classes. In this work, we challenge this assumption by showing that, in domains such as network intrusion detection and medical imaging, data difficulty often clusters by class. We formalize this as class-difficulty separability and introduce the Class Difficulty Separability Coefficient (CDSC) as a quantitative measure. We demonstrate that high CDSC values correlate with performance degradation in class-agnostic coreset methods, which tend to overrepresent easy majority classes while neglecting rare but informative ones. To address this, we introduce class-proportional variants of multiple sampling strategies. Evaluated on five diverse datasets spanning security and medical domains, our methods consistently achieve state-of-the-art performance. For instance, on CTU-13, at an extreme 99% pruning rate, a class-proportional variant of Coverage-centric Coreset Selection (CCS-CP) shows remarkable stability, with accuracy dropping only 2.58%, precision 0.49%, and recall 0.19%. In contrast, the class-agnostic CCS baseline, the next best method, suffers sharper declines of 7.59% in accuracy, 4.57% in precision, and 4.11% in recall. We further show that aggressive pruning enhances generalization in noisy, imbalanced, and large-scale datasets. Our results underscore that explicitly modeling class-difficulty separability leads to more effective, robust, and generalizable data pruning, particularly in high-stakes scenarios.
- Abstract(参考訳): 信頼性と効率的な機械学習システムを構築するためには、高品質なトレーニングデータが不可欠である。
ワンショットコアセットの選択は、モデルパフォーマンスを維持したり改善したりしながらデータセットを刈り取ることでこの問題に対処する。
しかし、既存のほとんどのメソッドは、異なるクラス間でのデータの難易度の変化を見越して、データ難易度におけるクラスワイドの均一性を暗黙的に仮定している。
本研究では,ネットワーク侵入検出や医用画像などの領域では,データのクラスタリングが困難であることから,この仮定に挑戦する。
本稿では,これをクラス微分分離係数として定式化し,CDSC(Class Difficulty Separability Coefficient)を定量的尺度として導入する。
クラスに依存しないコアセット法では,高いCDSC値が性能劣化と相関することを示した。
これを解決するために,複数のサンプリング戦略のクラス比例変種を導入する。
セキュリティドメインと医療ドメインにまたがる5つの多様なデータセットに基づいて評価し、その手法は一貫して最先端のパフォーマンスを実現している。
例えば、CTU-13では、極端な99%のプルーニングレートで、Coverage-centric Coreset Selection (CCS-CP)のクラス比の変種は顕著な安定性を示し、精度は2.58%しか低下せず、精度は0.49%、リコールは0.19%である。
対照的に、クラス非依存のCCSベースラインは次の最良の方法であり、精度が7.59%、精度が4.57%、リコールが4.11%急激な低下を被っている。
さらに,アグレッシブプルーニングにより,雑音,不均衡,大規模データセットの一般化が促進されることを示す。
以上の結果から,クラス微分の分離性を明示的にモデル化することで,特に高精度なシナリオにおいて,より効率的で堅牢で一般化可能なデータプルーニングが実現されることが示唆された。
関連論文リスト
- The Impact of Coreset Selection on Spurious Correlations and Group Robustness [29.00056007029943]
コアセット選択手法は、データ効率のよい機械学習のためのモデル性能を維持しながら、トレーニングデータサイズの削減を約束している。
我々は、選択したコアセットの急激なバイアスレベルに対するデータ選択の影響と、それらに基づいてトレーニングされた下流モデルのロバスト性について、初めて包括的分析を行った。
論文 参考訳(メタデータ) (2025-07-15T19:46:30Z) - Quality over Quantity: An Effective Large-Scale Data Reduction Strategy Based on Pointwise V-Information [2.133855532092057]
我々はポイントワイズ情報(PVI)に基づく効果的なデータ削減戦略を提案する。
実験の結果、データの10%から30%が削除された場合、分類器の性能は0.0001%から0.76%の精度で維持されることがわかった。
我々は、以前英語のデータセットに限られていたPVIフレームワークを、さまざまな中国のNLPタスクやベースモデルに適用した。
論文 参考訳(メタデータ) (2025-06-19T06:59:19Z) - Non-Uniform Class-Wise Coreset Selection: Characterizing Category Difficulty for Data-Efficient Transfer Learning [19.152700266277247]
Non-Uniform Class-Wise Coreset Selection (NUCS)は、クラスレベルとインスタンスレベルの両方の基準を統合する新しいフレームワークである。
我々の研究は、コアセット選択におけるカテゴリの難しさを特徴づけることの重要性を強調し、転送学習のための堅牢でデータ効率のよいソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-17T15:40:51Z) - Improving the Efficiency of Self-Supervised Adversarial Training through Latent Clustering-Based Selection [2.7554677967598047]
逆向きの堅牢な学習は、トレーニングの例をはるかに多く求めていると広く認識されている。
近年の研究では、モデルロバスト性を高めるために、外部または合成された未ラベルデータを用いた自己教師付き対人訓練が提案されている。
そこで本稿では,SSATに不可欠なラベルなしデータの小さなサブセットを戦略的に選択し,ロバスト性を向上させる手法を提案する。
論文 参考訳(メタデータ) (2025-01-15T15:47:49Z) - SeMi: When Imbalanced Semi-Supervised Learning Meets Mining Hard Examples [54.760757107700755]
Semi-Supervised Learning (SSL)は、豊富なラベルのないデータを活用して、モデルのパフォーマンスを向上させる。
実世界のシナリオにおけるクラス不均衡なデータ分散は、SSLに大きな課題をもたらし、結果としてパフォーマンスが低下する。
マイニングハードケース(SeMi)による不均衡半教師学習の性能向上手法を提案する。
論文 参考訳(メタデータ) (2025-01-10T14:35:16Z) - SSL-CPCD: Self-supervised learning with composite pretext-class
discrimination for improved generalisability in endoscopic image analysis [3.1542695050861544]
深層学習に基づく教師付き手法は医用画像解析において広く普及している。
大量のトレーニングデータと、目に見えないデータセットに対する一般的な問題に直面する必要がある。
本稿では,加法的角マージンを用いたパッチレベルのインスタンスグループ識別とクラス間変動のペナル化について検討する。
論文 参考訳(メタデータ) (2023-05-31T21:28:08Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。