論文の概要: Dataset Condensation with Distribution Matching
- arxiv url: http://arxiv.org/abs/2110.04181v1
- Date: Fri, 8 Oct 2021 15:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 14:11:08.329290
- Title: Dataset Condensation with Distribution Matching
- Title(参考訳): 分布マッチングによるデータセットの凝縮
- Authors: Bo Zhao, Hakan Bilen
- Abstract要約: データセットの凝縮は、元々の大きなトレーニングセットを、はるかに小さな学習された合成セットに置き換えることを目的としている。
トレーニングコストを大幅に削減する,単純かつ効果的なデータセット凝縮手法を提案する。
その効率により、我々はより現実的で大規模なデータセットに適用し、洗練されたニューラルアーキテクチャを持つ。
- 参考スコア(独自算出の注目度): 30.571335208276246
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Computational cost to train state-of-the-art deep models in many learning
problems is rapidly increasing due to more sophisticated models and larger
datasets. A recent promising direction to reduce training time is dataset
condensation that aims to replace the original large training set with a
significantly smaller learned synthetic set while preserving its information.
While training deep models on the small set of condensed images can be
extremely fast, their synthesis remains computationally expensive due to the
complex bi-level optimization and second-order derivative computation. In this
work, we propose a simple yet effective dataset condensation technique that
requires significantly lower training cost with comparable performance by
matching feature distributions of the synthetic and original training images in
sampled embedding spaces. Thanks to its efficiency, we apply our method to more
realistic and larger datasets with sophisticated neural architectures and
achieve a significant performance boost while using larger synthetic training
set. We also show various practical benefits of our method in continual
learning and neural architecture search.
- Abstract(参考訳): 多くの学習問題において最先端の深層モデルを訓練するための計算コストは、より洗練されたモデルとより大きなデータセットのために急速に増大している。
トレーニング時間を短縮するための最近の有望な方向は、元の大規模トレーニングセットを、情報を保持しながら、はるかに小さな学習合成セットに置き換えることを目的としたデータセットの凝縮である。
小集合の凝縮した画像の深部モデルを訓練するのは極めて高速であるが、複雑な二段階最適化と二階微分計算のため、その合成は計算コストがかかる。
本研究では, サンプル埋め込み空間における合成画像とオリジナル画像の特徴分布を一致させることにより, トレーニングコストと同等の性能のトレーニングコストを著しく低減する, 簡便で効果的なデータセット凝縮手法を提案する。
その効率性のおかげで、よりリアルで高度なニューラルネットワークアーキテクチャを持つデータセットに適用し、より大規模な合成トレーニングセットを用いて、大幅なパフォーマンス向上を実現します。
また,連続学習とニューラルアーキテクチャ探索において,本手法の様々な実用的メリットを示す。
関連論文リスト
- Diffusion-based Neural Network Weights Generation [85.6725307453325]
データセット条件付き事前学習重み抽出による効率よく適応的な伝達学習手法を提案する。
具体的には、ニューラルネットワークの重みを再構築できる変分オートエンコーダを備えた潜時拡散モデルを用いる。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory
Matching [21.060049493150785]
合成データセットのサイズが大きくなるにつれて有効なアルゴリズムを提案する。
実験により, 一致する軌道の訓練段階が, 蒸留データセットの有効性に大きく影響していることが判明した。
そこで我々は,軌道マッチングに基づく手法を大規模合成データセットに拡張することに成功している。
論文 参考訳(メタデータ) (2023-10-09T14:57:41Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Accelerating Dataset Distillation via Model Augmentation [41.3027484667024]
本研究では,初期モデルとパラメータを用いた2つのモデル拡張手法を提案し,学習コストを大幅に削減した情報合成集合を学習する。
提案手法は,最先端の手法と同等の性能で,最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-12-12T07:36:05Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T09:55:31Z) - Dataset Condensation with Gradient Matching [36.14340188365505]
本研究では,大規模なデータセットを,深層ニューラルネットワークをスクラッチからトレーニングするための情報的合成サンプルの小さなセットに凝縮させることを学習する,データセット凝縮という,データ効率のよい学習のためのトレーニングセット合成手法を提案する。
いくつかのコンピュータビジョンベンチマークでその性能を厳格に評価し、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:30:52Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。