論文の概要: Improved Distribution Matching for Dataset Condensation
- arxiv url: http://arxiv.org/abs/2307.09742v1
- Date: Wed, 19 Jul 2023 04:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:39:17.286122
- Title: Improved Distribution Matching for Dataset Condensation
- Title(参考訳): データセット凝縮のための分散マッチングの改善
- Authors: Ganlong Zhao, Guanbin Li, Yipeng Qin, Yizhou Yu
- Abstract要約: 本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
- 参考スコア(独自算出の注目度): 91.55972945798531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset Condensation aims to condense a large dataset into a smaller one
while maintaining its ability to train a well-performing model, thus reducing
the storage cost and training effort in deep learning applications. However,
conventional dataset condensation methods are optimization-oriented and
condense the dataset by performing gradient or parameter matching during model
optimization, which is computationally intensive even on small datasets and
models. In this paper, we propose a novel dataset condensation method based on
distribution matching, which is more efficient and promising. Specifically, we
identify two important shortcomings of naive distribution matching (i.e.,
imbalanced feature numbers and unvalidated embeddings for distance computation)
and address them with three novel techniques (i.e., partitioning and expansion
augmentation, efficient and enriched model sampling, and class-aware
distribution regularization). Our simple yet effective method outperforms most
previous optimization-oriented methods with much fewer computational resources,
thereby scaling data condensation to larger datasets and models. Extensive
experiments demonstrate the effectiveness of our method. Codes are available at
https://github.com/uitrbn/IDM
- Abstract(参考訳): データセット凝縮(dataset condensation)は、パフォーマンスのよいモデルをトレーニングする能力を維持しながら、大きなデータセットを小さなデータセットに集約することを目的としている。
しかし、従来のデータセット凝縮法は最適化指向であり、モデル最適化中に勾配やパラメータマッチングを行い、小さなデータセットやモデルでも計算集約的である。
本稿では,より効率的かつ有望な分布マッチングに基づく新しいデータセット凝縮法を提案する。
具体的には,非平衡な特徴数と非平衡な埋め込み(距離計算)の2つの重要な欠点を特定し,これらを3つの新しい手法(分割と拡張強化,効率的なモデルサンプリング,クラス認識分布正規化)で解決する。
提案手法は,従来の最適化指向手法をはるかに少ない計算資源で上回り,データ凝縮を大規模データセットやモデルに拡大する。
広範な実験により本手法の有効性が実証された。
コードはhttps://github.com/uitrbn/idmで入手できる。
関連論文リスト
- Dataset Distillation as Pushforward Optimal Quantization [1.039189397779466]
そこで本稿では,ImageNet-1Kデータセットの性能向上を目的とした,最先端データ蒸留法D4Mの簡易拡張を提案する。
エンコーダ・デコーダ構造を組み込んだ場合、実験的に成功した不整合法を最適な量子化問題として再定義できることを実証する。
特に, 既存の不整合データセット蒸留法を古典的最適量子化法とワッサーシュタインバリセンタ問題にリンクし, 拡散型生成前処理のための蒸留データセットの整合性を示す。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity [55.03958223190181]
本稿では,データ類似性の下での非バイアス圧縮とバイアス圧縮を利用した,理論上初めての高速化アルゴリズムを提案する。
我々の結果は、異なる平均損失とデータセットに関する実験によって記録され、確認されています。
論文 参考訳(メタデータ) (2024-12-21T00:40:58Z) - Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。
ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。
ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文 参考訳(メタデータ) (2024-10-15T17:47:44Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:45:32Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Accelerating Dataset Distillation via Model Augmentation [41.3027484667024]
本研究では,初期モデルとパラメータを用いた2つのモデル拡張手法を提案し,学習コストを大幅に削減した情報合成集合を学習する。
提案手法は,最先端の手法と同等の性能で,最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-12-12T07:36:05Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。