論文の概要: Adaptive Second Order Coresets for Data-efficient Machine Learning
- arxiv url: http://arxiv.org/abs/2207.13887v1
- Date: Thu, 28 Jul 2022 05:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:38:20.566809
- Title: Adaptive Second Order Coresets for Data-efficient Machine Learning
- Title(参考訳): データ効率機械学習のための適応2次コアセット
- Authors: Omead Pooladzandi, David Davini, Baharan Mirzasoleiman
- Abstract要約: データセット上で機械学習モデルをトレーニングすると、かなりの計算コストが発生する。
機械学習のためのトレーニング例のサブセットを抽出するために,AdaCoreを提案する。
- 参考スコア(独自算出の注目度): 5.362258158646462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training machine learning models on massive datasets incurs substantial
computational costs. To alleviate such costs, there has been a sustained effort
to develop data-efficient training methods that can carefully select subsets of
the training examples that generalize on par with the full training data.
However, existing methods are limited in providing theoretical guarantees for
the quality of the models trained on the extracted subsets, and may perform
poorly in practice. We propose AdaCore, a method that leverages the geometry of
the data to extract subsets of the training examples for efficient machine
learning. The key idea behind our method is to dynamically approximate the
curvature of the loss function via an exponentially-averaged estimate of the
Hessian to select weighted subsets (coresets) that provide a close
approximation of the full gradient preconditioned with the Hessian. We prove
rigorous guarantees for the convergence of various first and second-order
methods applied to the subsets chosen by AdaCore. Our extensive experiments
show that AdaCore extracts coresets with higher quality compared to baselines
and speeds up training of convex and non-convex machine learning models, such
as logistic regression and neural networks, by over 2.9x over the full data and
4.5x over random subsets.
- Abstract(参考訳): 大量のデータセット上で機械学習モデルをトレーニングすると、かなりの計算コストが発生する。
このようなコストを軽減するために、トレーニングデータ全体と同等に一般化したトレーニング例のサブセットを慎重に選択可能な、データ効率の高いトレーニング方法の開発が続けられている。
しかし、既存の手法は、抽出されたサブセット上で訓練されたモデルの品質を理論的に保証することに限定されており、実際は不十分である。
本稿では,データ形状を利用してトレーニング例のサブセットを抽出し,効率的な機械学習を実現する手法であるAdaCoreを提案する。
提案手法の背景にある鍵となる考え方は、Hessian の指数的平均推定により損失関数の曲率を動的に近似し、Hessian に事前条件付き全勾配の近似を与える重み付き部分集合 (coresets) を選択することである。
我々は、adacore によって選択された部分集合に適用される様々な一階および二階法の収束に対する厳密な保証を証明する。
広範な実験により、adacoreはベースラインよりも高品質なコアセットを抽出し、ロジスティック回帰やニューラルネットワークといった凸および非凸機械学習モデルのトレーニングを、全データに対する2.9倍、ランダムなサブセット上で4.5倍高速化することが示された。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Probabilistic Bilevel Coreset Selection [24.874967723659022]
本稿では,各トレーニングサンプルの確率的重みを学習することにより,コアセット選択の連続確率的2レベル定式化を提案する。
暗黙的な微分の問題を伴わずに、偏りのない政策勾配を経由し、二段階最適化問題に対する効率的な解法を開発する。
論文 参考訳(メタデータ) (2023-01-24T09:37:00Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Uncovering Coresets for Classification With Multi-Objective Evolutionary
Algorithms [0.8057006406834467]
coresetはトレーニングセットのサブセットであり、機械学習アルゴリズムが元のデータ全体にわたってトレーニングされた場合の成果と同じようなパフォーマンスを取得する。
候補コルセットは反復的に最適化され、サンプルの追加と削除が行われる。
多目的進化アルゴリズムは、集合内の点数と分類誤差を同時に最小化するために用いられる。
論文 参考訳(メタデータ) (2020-02-20T09:59:56Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。