論文の概要: Data pruning and neural scaling laws: fundamental limitations of
score-based algorithms
- arxiv url: http://arxiv.org/abs/2302.06960v3
- Date: Mon, 6 Nov 2023 07:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 01:04:23.705925
- Title: Data pruning and neural scaling laws: fundamental limitations of
score-based algorithms
- Title(参考訳): データプルーニングとニューラルスケーリング法則--スコアベースアルゴリズムの基本的限界
- Authors: Fadhel Ayed and Soufiane Hayou
- Abstract要約: 本研究では,高圧縮方式においてスコアベースデータプルーニングアルゴリズムがフェールする理由を理論的,実証的に示す。
本稿では,この高圧縮方式における既存のプルーニングアルゴリズムの性能を向上させるキャリブレーションプロトコルを提案する。
- 参考スコア(独自算出の注目度): 9.68145635795782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data pruning algorithms are commonly used to reduce the memory and
computational cost of the optimization process. Recent empirical results reveal
that random data pruning remains a strong baseline and outperforms most
existing data pruning methods in the high compression regime, i.e., where a
fraction of $30\%$ or less of the data is kept. This regime has recently
attracted a lot of interest as a result of the role of data pruning in
improving the so-called neural scaling laws; in [Sorscher et al.], the authors
showed the need for high-quality data pruning algorithms in order to beat the
sample power law.
In this work, we focus on score-based data pruning algorithms and show
theoretically and empirically why such algorithms fail in the high compression
regime. We demonstrate ``No Free Lunch" theorems for data pruning and present
calibration protocols that enhance the performance of existing pruning
algorithms in this high compression regime using randomization.
- Abstract(参考訳): データプルーニングアルゴリズムは、最適化プロセスのメモリと計算コストを減らすために一般的に使用される。
近年の実証実験により、ランダムなデータの刈り取りは依然として強力なベースラインであり、高い圧縮領域において既存のデータ刈り出し手法、すなわちデータのわずか30〜%未満が保持されている方法よりも優れていることが判明した。
この制度は最近、いわゆるニューラルスケーリングの法則の改善におけるデータプルーニングの役割によって、多くの関心を集めている。 [sorscher et al.] では、サンプルパワーの法則を破るために、高品質なデータプルーニングアルゴリズムが必要であることを示した。
本研究では,スコアベースのデータプルーニングアルゴリズムに着目し,そのようなアルゴリズムが高圧縮方式で失敗する理由を理論的,実証的に示す。
本稿では,データプルーニングのための'No Free Lunch'定理と,この高圧縮方式における既存のプルーニングアルゴリズムの性能向上を目的としたキャリブレーションプロトコルについて述べる。
関連論文リスト
- A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - DRoP: Distributionally Robust Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - Sketch and shift: a robust decoder for compressive clustering [17.627195350266796]
圧縮学習は、大規模学習のメモリフットプリントを大幅に削減する、新たなアプローチである。
CL-OMPRよりも大幅に改善された代替デコーダを提案する。
提案アルゴリズムは,従来より10倍小さいMNISTデータセットのスケッチからクラスタリング情報を抽出することができる。
論文 参考訳(メタデータ) (2023-12-15T16:53:55Z) - Randomized Dimension Reduction with Statistical Guarantees [0.27195102129095]
この論文は、高速な実行と効率的なデータ利用のためのアルゴリズムをいくつか探求している。
一般化と分散性を向上する様々なデータ拡張を組み込んだ学習アルゴリズムに着目する。
具体的には、第4章では、データ拡張整合正則化のための複雑性分析のサンプルを提示する。
論文 参考訳(メタデータ) (2023-10-03T02:01:39Z) - Geometry-Aware Approaches for Balancing Performance and Theoretical
Guarantees in Linear Bandits [6.907555940790131]
トンプソンサンプリングとグリーディは有望な経験的性能を示したが、これは悲観的な理論的後悔の境界とは対照的である。
本研究では不確実楕円体の幾何学的特性を追跡する新しいデータ駆動手法を提案する。
ベースアルゴリズムが不十分な問題インスタンスを特定し,コース修正する。
論文 参考訳(メタデータ) (2023-06-26T17:38:45Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Data-Efficient Structured Pruning via Submodular Optimization [32.574190896543705]
部分モジュラ最適化に基づくデータ効率の高い構造化プルーニング手法を提案する。
この選択問題は弱い部分モジュラー問題であり、効率的なグリードアルゴリズムを用いて証明可能な近似が可能であることを示す。
本手法は,限られた数のトレーニングデータのみを使用し,ラベルを含まない文献の中では数少ない手法の一つである。
論文 参考訳(メタデータ) (2022-03-09T18:40:29Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Learning to Hash Robustly, with Guarantees [79.68057056103014]
本稿では,理論的アルゴリズムと本質的に一致する最悪ケース保証を持つハミング空間のためのNSアルゴリズムを設計する。
理論的にも実用的にも、与えられたデータセットに対してアルゴリズムが最適化できる能力を評価する。
我々のアルゴリズムは、MNISTおよびImageNetデータセットに対する最悪のパフォーマンスのクエリを、1.8倍と2.1倍の精度でリコールする。
論文 参考訳(メタデータ) (2021-08-11T20:21:30Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。