論文の概要: Improved Distribution Matching for Dataset Condensation
- arxiv url: http://arxiv.org/abs/2307.09742v1
- Date: Wed, 19 Jul 2023 04:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:39:17.286122
- Title: Improved Distribution Matching for Dataset Condensation
- Title(参考訳): データセット凝縮のための分散マッチングの改善
- Authors: Ganlong Zhao, Guanbin Li, Yipeng Qin, Yizhou Yu
- Abstract要約: 本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
- 参考スコア(独自算出の注目度): 91.55972945798531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset Condensation aims to condense a large dataset into a smaller one
while maintaining its ability to train a well-performing model, thus reducing
the storage cost and training effort in deep learning applications. However,
conventional dataset condensation methods are optimization-oriented and
condense the dataset by performing gradient or parameter matching during model
optimization, which is computationally intensive even on small datasets and
models. In this paper, we propose a novel dataset condensation method based on
distribution matching, which is more efficient and promising. Specifically, we
identify two important shortcomings of naive distribution matching (i.e.,
imbalanced feature numbers and unvalidated embeddings for distance computation)
and address them with three novel techniques (i.e., partitioning and expansion
augmentation, efficient and enriched model sampling, and class-aware
distribution regularization). Our simple yet effective method outperforms most
previous optimization-oriented methods with much fewer computational resources,
thereby scaling data condensation to larger datasets and models. Extensive
experiments demonstrate the effectiveness of our method. Codes are available at
https://github.com/uitrbn/IDM
- Abstract(参考訳): データセット凝縮(dataset condensation)は、パフォーマンスのよいモデルをトレーニングする能力を維持しながら、大きなデータセットを小さなデータセットに集約することを目的としている。
しかし、従来のデータセット凝縮法は最適化指向であり、モデル最適化中に勾配やパラメータマッチングを行い、小さなデータセットやモデルでも計算集約的である。
本稿では,より効率的かつ有望な分布マッチングに基づく新しいデータセット凝縮法を提案する。
具体的には,非平衡な特徴数と非平衡な埋め込み(距離計算)の2つの重要な欠点を特定し,これらを3つの新しい手法(分割と拡張強化,効率的なモデルサンプリング,クラス認識分布正規化)で解決する。
提案手法は,従来の最適化指向手法をはるかに少ない計算資源で上回り,データ凝縮を大規模データセットやモデルに拡大する。
広範な実験により本手法の有効性が実証された。
コードはhttps://github.com/uitrbn/idmで入手できる。
関連論文リスト
- Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。
ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。
ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文 参考訳(メタデータ) (2024-10-15T17:47:44Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:45:32Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Accelerating Dataset Distillation via Model Augmentation [41.3027484667024]
本研究では,初期モデルとパラメータを用いた2つのモデル拡張手法を提案し,学習コストを大幅に削減した情報合成集合を学習する。
提案手法は,最先端の手法と同等の性能で,最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-12-12T07:36:05Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Learning Distributionally Robust Models at Scale via Composite
Optimization [45.47760229170775]
DROの異なる変種が、スケーラブルな方法を提供する有限サム合成最適化の単なる例であることを示す。
また、非常に大規模なデータセットからロバストなモデルを学ぶために、先行技術に関して提案アルゴリズムの有効性を示す実験結果も提供する。
論文 参考訳(メタデータ) (2022-03-17T20:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。