論文の概要: On the Size and Approximation Error of Distilled Sets
- arxiv url: http://arxiv.org/abs/2305.14113v1
- Date: Tue, 23 May 2023 14:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:30:51.160275
- Title: On the Size and Approximation Error of Distilled Sets
- Title(参考訳): 蒸留集合のサイズと近似誤差について
- Authors: Alaa Maalouf and Murad Tukan and Noel Loo and Ramin Hasani and Mathias
Lechner and Daniela Rus
- Abstract要約: カーネル・インジェクション・ポイント(Kernel Inducing Points)などのデータセット蒸留のカーネル・リッジ回帰に基づく手法について理論的に考察する。
我々は、RFF空間におけるその解が元のデータの解と一致するように、元の入力空間に小さな一組のインスタンスが存在することを証明した。
KRR溶液は、全入力データに最適化されたKRR溶液に対して近似を与えるこの蒸留されたインスタンスセットを用いて生成することができる。
- 参考スコア(独自算出の注目度): 57.61696480305911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset Distillation is the task of synthesizing small datasets from large
ones while still retaining comparable predictive accuracy to the original
uncompressed dataset. Despite significant empirical progress in recent years,
there is little understanding of the theoretical limitations/guarantees of
dataset distillation, specifically, what excess risk is achieved by
distillation compared to the original dataset, and how large are distilled
datasets? In this work, we take a theoretical view on kernel ridge regression
(KRR) based methods of dataset distillation such as Kernel Inducing Points. By
transforming ridge regression in random Fourier features (RFF) space, we
provide the first proof of the existence of small (size) distilled datasets and
their corresponding excess risk for shift-invariant kernels. We prove that a
small set of instances exists in the original input space such that its
solution in the RFF space coincides with the solution of the original data. We
further show that a KRR solution can be generated using this distilled set of
instances which gives an approximation towards the KRR solution optimized on
the full input data. The size of this set is linear in the dimension of the RFF
space of the input set or alternatively near linear in the number of effective
degrees of freedom, which is a function of the kernel, number of datapoints,
and the regularization parameter $\lambda$. The error bound of this distilled
set is also a function of $\lambda$. We verify our bounds analytically and
empirically.
- Abstract(参考訳): Dataset Distillationは、大きなデータセットから小さなデータセットを合成する作業であり、オリジナルの圧縮されていないデータセットと同等の予測精度を維持している。
近年の有意な実証的進歩にもかかわらず、データセット蒸留の理論上の限界/保証者、具体的には、元のデータセットと比較して蒸留によって得られる過剰なリスクと、蒸留データセットの大きさについてはほとんど理解されていない。
本研究では,カーネルリッジ回帰法(krr)に基づく核誘導点などのデータセット蒸留法について理論的に考察する。
ランダムフーリエ特徴量(RFF)空間におけるリッジ回帰を変換することにより、小さく(サイズ)蒸留したデータセットの存在と、それに対応するシフト不変カーネルの過剰リスクを初めて証明する。
rff空間における解が元のデータの解と一致するように、元の入力空間に小さなインスタンス集合が存在することが証明される。
さらに,全入力データに最適化されたKRR溶液に対して近似を与える,この蒸留液を用いてKRR溶液を生成可能であることを示す。
この集合のサイズは入力集合の rff 空間の次元において線形であるか、あるいはその核の関数である有効自由度数、データ点の数、正規化パラメータ $\lambda$ の線型に近いかのどちらかである。
この蒸留された集合の誤差境界も$\lambda$の関数である。
境界を分析的かつ経験的に検証する。
関連論文リスト
- Byzantine-resilient Federated Learning With Adaptivity to Data Heterogeneity [54.145730036889496]
本稿では、ビザンツの悪意ある攻撃データの存在下でのグラディエント・ラーニング(FL)を扱う。
Average Algorithm (RAGA) が提案され、ロバストネスアグリゲーションを活用してデータセットを選択することができる。
論文 参考訳(メタデータ) (2024-03-20T08:15:08Z) - Embarassingly Simple Dataset Distillation [0.0]
本研究は, 2段階最適化問題として直接扱うことにより, その中核におけるデータセットの蒸留に取り組む。
蒸留されたデータの性質を深く掘り下げると、相互相関が明らかになる。
異なるデータ予算にまたがって、ほぼ最適性能のサブセットを含む蒸留データセットを生成するブーピング機構を考案する。
論文 参考訳(メタデータ) (2023-11-13T02:14:54Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Dataset Distillation Meets Provable Subset Selection [14.158845925610438]
データセット蒸留は、大規模なトレーニングデータセットを、その性能を維持する小さな合成データセットに圧縮するために提案されている。
本稿では, 重要点を特定し, 余剰点を除去することにより, 蒸留セットを初期化するための, 実証可能なサンプリングベースアプローチを提案する。
さらに,次のバッチをランダムにサンプリングするのではなく,''サンプル点の蒸留セットをトレーニングすることで,データセットの蒸留とデータサブセット選択のアイデアを融合する。
論文 参考訳(メタデータ) (2023-07-16T15:58:19Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Dataset Distillation using Neural Feature Regression [32.53291298089172]
ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。
FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。
我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-01T19:02:06Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Improved guarantees and a multiple-descent curve for Column Subset
Selection and the Nystr\"om method [76.73096213472897]
我々は,データ行列のスペクトル特性を利用して近似保証を改良する手法を開発した。
我々のアプローチは、特異値減衰の既知の速度を持つデータセットのバウンダリが大幅に向上する。
RBFパラメータを変更すれば,改良された境界線と多重発振曲線の両方を実データセット上で観測できることが示される。
論文 参考訳(メタデータ) (2020-02-21T00:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。