論文の概要: Geometric Median (GM) Matching for Robust Data Pruning
- arxiv url: http://arxiv.org/abs/2406.17188v1
- Date: Tue, 25 Jun 2024 00:02:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 16:11:02.005694
- Title: Geometric Median (GM) Matching for Robust Data Pruning
- Title(参考訳): ロバストデータ抽出のための幾何媒介(GM)マッチング
- Authors: Anish Acharya, Inderjit S Dhillon, Sujay Sanghavi,
- Abstract要約: データプルーニングは、大規模なデータハングリーモデルのトレーニングに伴う膨大な計算コストを軽減するために不可欠である。
本研究では,部分集合の平均値が(潜在的に)ノイズデータセットの中央値に近似するように,$k$-subsetを求めるGeometric ($gm$) Matchingを提案する。
一般的なディープラーニングベンチマークによる実験によると、$gm$ Matchingは、従来よりも一貫してパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 29.458270105150564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data pruning, the combinatorial task of selecting a small and informative subset from a large dataset, is crucial for mitigating the enormous computational costs associated with training data-hungry modern deep learning models at scale. Since large-scale data collections are invariably noisy, developing data pruning strategies that remain robust even in the presence of corruption is critical in practice. Unfortunately, the existing heuristics for (robust) data pruning lack theoretical coherence and rely on heroic assumptions, that are, often unattainable, by the very nature of the problem setting. Moreover, these strategies often yield sub-optimal neural scaling laws even compared to random sampling, especially in scenarios involving strong corruption and aggressive pruning rates -- making provably robust data pruning an open challenge. In response, in this work, we propose Geometric Median ($\gm$) Matching -- a herding~\citep{welling2009herding} style greedy algorithm -- that yields a $k$-subset such that the mean of the subset approximates the geometric median of the (potentially) noisy dataset. Theoretically, we show that $\gm$ Matching enjoys an improved $\gO(1/k)$ scaling over $\gO(1/\sqrt{k})$ scaling of uniform sampling; while achieving the optimal breakdown point of 1/2 even under arbitrary corruption. Extensive experiments across popular deep learning benchmarks indicate that $\gm$ Matching consistently outperforms prior state-of-the-art; the gains become more profound at high rates of corruption and aggressive pruning rates; making $\gm$ Matching a strong baseline for future research in robust data pruning.
- Abstract(参考訳): データプルーニング(Data pruning)は、大規模データセットから小さくて情報的なサブセットを選択するための組合せ的タスクであり、大規模にデータに飢えた現代のディープラーニングモデルをトレーニングする際の膨大な計算コストを軽減するために不可欠である。
大規模なデータ収集はめったに騒がしいため、汚職があっても頑丈なデータ刈り取り戦略を開発することは、実際は極めて重要である。
残念なことに、(ロバストな)データプルーニングの既存のヒューリスティックスは理論的なコヒーレンスを欠いており、問題設定の性質によってしばしば達成不可能な英雄的な仮定に依存している。
さらに、これらの戦略は、特に強い汚職やアグレッシブプルーニング率を含むシナリオにおいて、ランダムサンプリングよりも、サブ最適のニューラルスケーリング法を生じることが多い。これは、証明可能なロバストなデータプルーニングをオープンな課題とする。これに対し、我々は、Geometric Median(\gm$) Matching -- a herding~\citep{welling2009herding}スタイルのgreedyアルゴリズムを提案する。これは、サブセットの平均が(潜在的に)ノイズデータセットの幾何学的中央値に近似するように、$k$-subsetを生成する。
理論的には、$\gm$ Matchingは$\gO(1/k)$のスケールを$\gO(1/\sqrt{k})$のスケールで楽しむ。
一般的なディープラーニングベンチマークの広範な実験によると、$\gm$ Matchingは、最先端の最先端を一貫して上回り、高い汚職率とアグレッシブプルーニングレートで上昇し、$\gm$ Matchingは、堅牢なデータプルーニングにおける将来の研究の強力なベースラインとなる。
関連論文リスト
- CURATRON: Complete and Robust Preference Data for Rigorous Alignment of Large Language Models [1.6339731044538859]
本稿では,大規模言語モデルと人間の価値観を協調する上での課題について考察する。
本稿では,LLMのレジリエンスを高めるために,堅牢で悪意のあるAIパイプラインデータセットを提案する。
論文 参考訳(メタデータ) (2024-03-05T07:58:12Z) - Sample-Efficient Linear Representation Learning from Non-IID Non-Isotropic Data [4.971690889257356]
コリンズとナイアーとヴァスワニによって提案された交互最小化・退化スキームの適応について紹介する。
iidにおいてもバニラ変動最小化降下は破滅的に失敗するが, 軽度に非等方性データは得られない。
我々の分析は、事前の作業を統一し、一般化し、幅広いアプリケーションに柔軟なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-08-08T17:56:20Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Revisiting Rotation Averaging: Uncertainties and Robust Losses [51.64986160468128]
現在の手法の主な問題は、推定エピポーラを通して入力データと弱い結合しか持たない最小コスト関数である。
本稿では,点対応から回転平均化への不確実性を直接伝播させることにより,基礎となる雑音分布をモデル化することを提案する。
論文 参考訳(メタデータ) (2023-03-09T11:51:20Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Iterative Feature Matching: Toward Provable Domain Generalization with
Logarithmic Environments [55.24895403089543]
ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。
我々は,O(logd_s)$環境のみを見た後に一般化する予測器を高確率で生成することを保証する反復的特徴マッチングに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-18T04:39:19Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Sample Complexity of Adversarially Robust Linear Classification on
Separated Data [41.30425613353595]
対向的堅牢性を伴う学習の複雑さについて考察する。
非常に分離されたデータの場合、$o(frac1n)$の収束率は達成可能である。
論文 参考訳(メタデータ) (2020-12-19T22:04:59Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Entropy Regularized Power k-Means Clustering [21.013169939337583]
本稿では、クローズドフォーム更新と収束保証を享受できるスケーラブルな大規模化最小化アルゴリズムを提案する。
我々の手法は、$k$-meansと$k$-meansと同じ計算量を維持しているが、どちらも大幅に改善されている。
論文 参考訳(メタデータ) (2020-01-10T14:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。