論文の概要: SelMatch: Effectively Scaling Up Dataset Distillation via Selection-Based Initialization and Partial Updates by Trajectory Matching
- arxiv url: http://arxiv.org/abs/2406.18561v1
- Date: Tue, 28 May 2024 06:54:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 06:00:20.791669
- Title: SelMatch: Effectively Scaling Up Dataset Distillation via Selection-Based Initialization and Partial Updates by Trajectory Matching
- Title(参考訳): SelMatch: 選択に基づく初期化とトラジェクトリマッチングによる部分更新によるデータセット蒸留の効果的スケールアップ
- Authors: Yongmin Lee, Hye Won Chung,
- Abstract要約: IPCで効果的にスケールする新しい蒸留法であるSelMatchを紹介する。
CIFAR-10/100 と TinyImageNet でテストすると、SelMatch は選択のみと蒸留のみの手法で常に性能が向上する。
- 参考スコア(独自算出の注目度): 10.696635172502141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation aims to synthesize a small number of images per class (IPC) from a large dataset to approximate full dataset training with minimal performance loss. While effective in very small IPC ranges, many distillation methods become less effective, even underperforming random sample selection, as IPC increases. Our examination of state-of-the-art trajectory-matching based distillation methods across various IPC scales reveals that these methods struggle to incorporate the complex, rare features of harder samples into the synthetic dataset even with the increased IPC, resulting in a persistent coverage gap between easy and hard test samples. Motivated by such observations, we introduce SelMatch, a novel distillation method that effectively scales with IPC. SelMatch uses selection-based initialization and partial updates through trajectory matching to manage the synthetic dataset's desired difficulty level tailored to IPC scales. When tested on CIFAR-10/100 and TinyImageNet, SelMatch consistently outperforms leading selection-only and distillation-only methods across subset ratios from 5% to 30%.
- Abstract(参考訳): データセット蒸留は、大規模なデータセットからクラス毎の少数の画像(IPC)を合成し、パフォーマンス損失を最小限に抑えた完全なデータセットトレーニングを近似することを目的としている。
非常に小さなIPC範囲では有効であるが、多くの蒸留法はIPCの増加に伴い、ランダムなサンプル選択が劣るほど効果が低下する。
各種ICCスケールのトラジェクトリマッチングに基づく蒸留法について検討した結果,ICCが増加しても,より硬い試料の複雑で稀な特徴を合成データセットに組み込むことに苦慮していることが明らかとなった。
そこで本研究では,IPCで効果的にスケールする新しい蒸留法であるSelMatchを紹介する。
SelMatchは、選択ベースの初期化とトラジェクトリマッチングによる部分的な更新を使用して、PCスケールに合わせて、合成データセットの望ましい困難レベルを管理する。
CIFAR-10/100とTinyImageNetでテストすると、SelMatchは5%から30%のサブセット比で、選択のみおよび蒸留のみの手法で、常にパフォーマンスが向上する。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - Embarassingly Simple Dataset Distillation [0.0]
本研究は, 2段階最適化問題として直接扱うことにより, その中核におけるデータセットの蒸留に取り組む。
蒸留されたデータの性質を深く掘り下げると、相互相関が明らかになる。
異なるデータ予算にまたがって、ほぼ最適性能のサブセットを含む蒸留データセットを生成するブーピング機構を考案する。
論文 参考訳(メタデータ) (2023-11-13T02:14:54Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - DREAM: Efficient Dataset Distillation by Representative Matching [38.92087223000823]
textbfREpresenttextbfAtive textbfMatching (DREAM) による textbfDataset 蒸留と呼ばれる新しいマッチング手法を提案する。
DREAMは、一般的なデータセット蒸留フレームワークに簡単にプラグインでき、性能低下なしに蒸留イテレーションを8回以上減らすことができる。
論文 参考訳(メタデータ) (2023-02-28T08:48:45Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Dataset Distillation with Infinitely Wide Convolutional Networks [18.837952916998947]
分散カーネルをベースとしたメタラーニングフレームワークを用いて,データセット蒸留の最先端結果を実現する。
CIFAR-10画像分類タスクでは64%以上のテスト精度が得られた。
我々の現状は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100、SVHNの他の多くの設定にも及んでいる。
論文 参考訳(メタデータ) (2021-07-27T18:31:42Z) - Capturing patterns of variation unique to a specific dataset [68.8204255655161]
対象データセットの1つ以上の比較データセットに対する低次元表現を同定するチューニングフリー手法を提案する。
複数の実験で、単一のバックグラウンドデータセットを持つUCAが、様々なチューニングパラメータを持つcPCAと同じような結果を達成することを示しました。
論文 参考訳(メタデータ) (2021-04-16T15:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。