論文の概要: Dataset Distillation Meets Provable Subset Selection
- arxiv url: http://arxiv.org/abs/2307.08086v1
- Date: Sun, 16 Jul 2023 15:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:55:20.086430
- Title: Dataset Distillation Meets Provable Subset Selection
- Title(参考訳): 有望なサブセット選択が可能なデータセット蒸留
- Authors: Murad Tukan, Alaa Maalouf, Margarita Osadchy
- Abstract要約: データセット蒸留は、大規模なトレーニングデータセットを、その性能を維持する小さな合成データセットに圧縮するために提案されている。
本稿では, 重要点を特定し, 余剰点を除去することにより, 蒸留セットを初期化するための, 実証可能なサンプリングベースアプローチを提案する。
さらに,次のバッチをランダムにサンプリングするのではなく,''サンプル点の蒸留セットをトレーニングすることで,データセットの蒸留とデータサブセット選択のアイデアを融合する。
- 参考スコア(独自算出の注目度): 14.158845925610438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has grown tremendously over recent years, yielding
state-of-the-art results in various fields. However, training such models
requires huge amounts of data, increasing the computational time and cost. To
address this, dataset distillation was proposed to compress a large training
dataset into a smaller synthetic one that retains its performance -- this is
usually done by (1) uniformly initializing a synthetic set and (2) iteratively
updating/learning this set according to a predefined loss by uniformly sampling
instances from the full data. In this paper, we improve both phases of dataset
distillation: (1) we present a provable, sampling-based approach for
initializing the distilled set by identifying important and removing redundant
points in the data, and (2) we further merge the idea of data subset selection
with dataset distillation, by training the distilled set on ``important''
sampled points during the training procedure instead of randomly sampling the
next batch. To do so, we define the notion of importance based on the relative
contribution of instances with respect to two different loss functions, i.e.,
one for the initialization phase (a kernel fitting function for kernel ridge
regression and $K$-means based loss function for any other distillation
method), and the relative cross-entropy loss (or any other predefined loss)
function for the training phase. Finally, we provide experimental results
showing how our method can latch on to existing dataset distillation techniques
and improve their performance.
- Abstract(参考訳): 近年、ディープラーニングは飛躍的に成長し、様々な分野で最先端の成果を上げている。
しかし、そのようなモデルのトレーニングには膨大なデータが必要であり、計算時間とコストが増加する。
データセットの蒸留により、大規模なトレーニングデータセットを、そのパフォーマンスを維持する小さな合成データセットに圧縮することが提案された。これは、(1) 合成セットを均一に初期化し、(2) 完全なデータからインスタンスを均一にサンプリングすることで、予め定義された損失に従って、このセットを反復的に更新/学習することによって行われる。
本稿では,(1)データ中の重要点を特定して余分な点を除去して蒸留セットを初期化するための,実証可能なサンプリングベースアプローチを提案するとともに,(2)データセット蒸留によるデータサブセット選択のアイデアを,次のバッチをランダムにサンプリングする代わりに,'重要'のサンプリングポイントの蒸留セットをトレーニングすることで,さらに統合する。
そこで我々は,2つの異なる損失関数,すなわち,初期化フェーズ(カーネルリッジ回帰のためのカーネルフィッティング関数と,他の蒸留方法に対する$k$-meansに基づく損失関数)と,訓練フェーズにおける相対クロスエントロピー損失(または他の事前定義された損失)関数に対するインスタンスの相対的寄与に基づいて,重要度の概念を定義する。
最後に,本手法が既存のデータセット蒸留技術にどのように適用でき,その性能を向上できるかを示す実験結果を示す。
関連論文リスト
- Benchmarking of a new data splitting method on volcanic eruption data [38.85972012552084]
反復的な手順は、これらの2つの部分の累積ヒストグラムで計算された相同性指数を用いて、火山噴火の入力データセットを2つの部分に分割する。
提案したモデルでは,エポック数がわずかに増加し,最高の性能が得られる。
各モデルはオーバーフィッティングに適する早期停止を訓練し, 提案手法のエポック数の増加は, 早期停止がオーバーフィッティングを検知しないことを実証した。
論文 参考訳(メタデータ) (2024-10-08T19:29:46Z) - Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - Embarassingly Simple Dataset Distillation [0.0]
本研究は, 2段階最適化問題として直接扱うことにより, その中核におけるデータセットの蒸留に取り組む。
蒸留されたデータの性質を深く掘り下げると、相互相関が明らかになる。
異なるデータ予算にまたがって、ほぼ最適性能のサブセットを含む蒸留データセットを生成するブーピング機構を考案する。
論文 参考訳(メタデータ) (2023-11-13T02:14:54Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - On the Size and Approximation Error of Distilled Sets [57.61696480305911]
カーネル・インジェクション・ポイント(Kernel Inducing Points)などのデータセット蒸留のカーネル・リッジ回帰に基づく手法について理論的に考察する。
我々は、RFF空間におけるその解が元のデータの解と一致するように、元の入力空間に小さな一組のインスタンスが存在することを証明した。
KRR溶液は、全入力データに最適化されたKRR溶液に対して近似を与えるこの蒸留されたインスタンスセットを用いて生成することができる。
論文 参考訳(メタデータ) (2023-05-23T14:37:43Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - Dataset Distillation using Neural Feature Regression [32.53291298089172]
ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。
FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。
我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-01T19:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。