論文の概要: Coverage-centric Coreset Selection for High Pruning Rates
- arxiv url: http://arxiv.org/abs/2210.15809v1
- Date: Fri, 28 Oct 2022 00:14:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:31:42.957555
- Title: Coverage-centric Coreset Selection for High Pruning Rates
- Title(参考訳): 高プルーニングレートのための被覆中心コアセット選択
- Authors: Haizhong Zheng, Rui Liu, Fan Lai, Atul Prakash
- Abstract要約: ワンショットコアセット選択は、プルーニング率からトレーニングデータのサブセットを選択することを目的としており、その後、そのサブセットでのみトレーニングされたモデルに対して高い精度を達成することができる。
最先端のコアセット選択方法は通常、各例に重要スコアを割り当て、コアセットを形成する上で最も重要な例を選択する。
しかし、高い刈り取り速度では、破滅的な精度の低下に悩まされ、ランダムなコアセットの選択よりもパフォーマンスが悪くなっていることが判明した。
- 参考スコア(独自算出の注目度): 11.18635356469467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot coreset selection aims to select a subset of the training data,
given a pruning rate, that can achieve high accuracy for models that are
subsequently trained only with that subset. State-of-the-art coreset selection
methods typically assign an importance score to each example and select the
most important examples to form a coreset. These methods perform well at low
pruning rates; but at high pruning rates, they have been found to suffer a
catastrophic accuracy drop, performing worse than even random coreset
selection. In this paper, we explore the reasons for this accuracy drop both
theoretically and empirically. We extend previous theoretical results on the
bound for model loss in terms of coverage provided by the coreset. Inspired by
theoretical results, we propose a novel coverage-based metric and, based on the
metric, find that coresets selected by importance-based coreset methods at high
pruning rates can be expected to perform poorly compared to random coresets
because of worse data coverage. We then propose a new coreset selection method,
Coverage-centric Coreset Selection (CCS), where we jointly consider overall
data coverage based on the proposed metric as well as importance of each
example. We evaluate CCS on four datasets and show that they achieve
significantly better accuracy than state-of-the-art coreset selection methods
as well as random sampling under high pruning rates, and comparable performance
at low pruning rates. For example, CCS achieves 7.04% better accuracy than
random sampling and at least 20.16% better than popular importance-based
selection methods on CIFAR10 with a 90% pruning rate.
- Abstract(参考訳): one-shot coreset selectionは、トレーニングデータのサブセットを選択することを目的としており、pruningレートが与えられると、そのサブセットのみでトレーニングされたモデルに対して高い精度を達成することができる。
最先端のcoreset選択メソッドは、通常、各例に重要スコアを割り当て、coresetを形成するために最も重要な例を選択する。
これらの手法は低プルーニングレートで良好に動作するが、高いプルーニングレートでは破滅的な精度低下に悩まされ、ランダムなコアセットの選択よりも悪い結果が得られた。
本稿では,この精度が理論的にも経験的にも低下する理由を考察する。
我々は、コアセットが提供するカバレッジの観点から、モデル損失のバウンドに関する以前の理論的結果を拡張する。
理論的な結果から着想を得た新しいカバレッジベース計量を提案し,その測定値に基づいて,高プルーニングレートで重要度ベースのコアセット法によって選択されたコアセットが,データカバレッジが悪くなるため,ランダムコアセットと比較して性能が低下することが期待される。
そこで我々は,提案する指標と各例の重要性に基づいて,総合的なデータカバレッジを検討する新しいコアセット選択法であるカバレッジ中心コアセット選択(ccs)を提案する。
CCSを4つのデータセット上で評価した結果,最先端コアセット選択法よりも精度が高く,高いプルーニングレートでのランダムサンプリング,低プルーニングレートでの同等性能が得られた。
例えば、CCSはランダムサンプリングよりも7.04%精度が向上し、90%のプルーニング率を持つCIFAR10の重要度に基づく選択法よりも少なくとも20.16%精度が向上している。
関連論文リスト
- Zero-Shot Coreset Selection: Efficient Pruning for Unlabeled Data [22.45812577928658]
Coreset選択は、モデルをトレーニングするデータの代表的なサブセットを見つけることを目的としている。
ZCoreは、真実ラベルや候補データによるトレーニングなしに、コアセットを効率的に選択する手法である。
我々は、4つのデータセット上でZCoreを評価し、いくつかの最先端のラベルベースの手法より優れています。
論文 参考訳(メタデータ) (2024-11-22T21:17:49Z) - Optimal Kernel Choice for Score Function-based Causal Discovery [92.65034439889872]
本稿では,データに最も適合する最適なカーネルを自動的に選択する,一般化スコア関数内のカーネル選択手法を提案する。
合成データと実世界のベンチマークの両方で実験を行い,提案手法がカーネル選択法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-14T09:32:20Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints [69.27190330994635]
コアセットの選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に強力である。
本稿では,モデル性能とコアセットサイズに対する最適化優先順序を維持する革新的な手法を提案する。
実験的に、広範な実験によりその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
論文 参考訳(メタデータ) (2023-11-15T03:43:04Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Extending Contrastive Learning to Unsupervised Coreset Selection [26.966136750754732]
我々は、コアセットを完全にラベルなしで選択する教師なしの方法を提案する。
対照学習には2つの指導的手法を用いる。
ラベルを用いた既存のコアセット選択手法と比較して,人間のアノテーションに関連するコストを削減した。
論文 参考訳(メタデータ) (2021-03-05T10:21:51Z) - Data-Independent Structured Pruning of Neural Networks via Coresets [21.436706159840018]
本稿では, 圧縮率と将来の試験試料の近似誤差とのトレードオフが証明可能な最初の効率的な構造化プルーニングアルゴリズムを提案する。
これまでの作業とは異なり、コアセットはデータ独立であり、逆数を含む任意の入力$xin mathbbRd$に対して関数の精度を確実に保証します。
論文 参考訳(メタデータ) (2020-08-19T08:03:09Z) - Bayesian Coresets: Revisiting the Nonconvex Optimization Perspective [30.963638533636352]
コアセット選択のための新しいアルゴリズムを提案し,解析する。
本研究では,様々なベンチマークデータセットに対して,明示的な収束率保証と経験的評価を行う。
論文 参考訳(メタデータ) (2020-07-01T19:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。