論文の概要: Dataset Condensation with Distribution Matching
- arxiv url: http://arxiv.org/abs/2110.04181v1
- Date: Fri, 8 Oct 2021 15:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 14:11:08.329290
- Title: Dataset Condensation with Distribution Matching
- Title(参考訳): 分布マッチングによるデータセットの凝縮
- Authors: Bo Zhao, Hakan Bilen
- Abstract要約: データセットの凝縮は、元々の大きなトレーニングセットを、はるかに小さな学習された合成セットに置き換えることを目的としている。
トレーニングコストを大幅に削減する,単純かつ効果的なデータセット凝縮手法を提案する。
その効率により、我々はより現実的で大規模なデータセットに適用し、洗練されたニューラルアーキテクチャを持つ。
- 参考スコア(独自算出の注目度): 30.571335208276246
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Computational cost to train state-of-the-art deep models in many learning
problems is rapidly increasing due to more sophisticated models and larger
datasets. A recent promising direction to reduce training time is dataset
condensation that aims to replace the original large training set with a
significantly smaller learned synthetic set while preserving its information.
While training deep models on the small set of condensed images can be
extremely fast, their synthesis remains computationally expensive due to the
complex bi-level optimization and second-order derivative computation. In this
work, we propose a simple yet effective dataset condensation technique that
requires significantly lower training cost with comparable performance by
matching feature distributions of the synthetic and original training images in
sampled embedding spaces. Thanks to its efficiency, we apply our method to more
realistic and larger datasets with sophisticated neural architectures and
achieve a significant performance boost while using larger synthetic training
set. We also show various practical benefits of our method in continual
learning and neural architecture search.
- Abstract(参考訳): 多くの学習問題において最先端の深層モデルを訓練するための計算コストは、より洗練されたモデルとより大きなデータセットのために急速に増大している。
トレーニング時間を短縮するための最近の有望な方向は、元の大規模トレーニングセットを、情報を保持しながら、はるかに小さな学習合成セットに置き換えることを目的としたデータセットの凝縮である。
小集合の凝縮した画像の深部モデルを訓練するのは極めて高速であるが、複雑な二段階最適化と二階微分計算のため、その合成は計算コストがかかる。
本研究では, サンプル埋め込み空間における合成画像とオリジナル画像の特徴分布を一致させることにより, トレーニングコストと同等の性能のトレーニングコストを著しく低減する, 簡便で効果的なデータセット凝縮手法を提案する。
その効率性のおかげで、よりリアルで高度なニューラルネットワークアーキテクチャを持つデータセットに適用し、より大規模な合成トレーニングセットを用いて、大幅なパフォーマンス向上を実現します。
また,連続学習とニューラルアーキテクチャ探索において,本手法の様々な実用的メリットを示す。
関連論文リスト
- Koopcon: A new approach towards smarter and less complex learning [13.053285552524052]
ビッグデータの時代、データセットの膨大な量と複雑さは、機械学習において大きな課題を引き起こします。
本稿では,クープマン演算子理論を背景とした,革新的オートエンコーダに基づくデータセット凝縮モデルを提案する。
人間の脳の予測的コーディング機構にインスパイアされた我々のモデルは、データをエンコードし再構成するための新しいアプローチを活用する。
論文 参考訳(メタデータ) (2024-05-22T17:47:14Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Accelerating Dataset Distillation via Model Augmentation [41.3027484667024]
本研究では,初期モデルとパラメータを用いた2つのモデル拡張手法を提案し,学習コストを大幅に削減した情報合成集合を学習する。
提案手法は,最先端の手法と同等の性能で,最大20倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-12-12T07:36:05Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Dataset Condensation with Gradient Matching [36.14340188365505]
本研究では,大規模なデータセットを,深層ニューラルネットワークをスクラッチからトレーニングするための情報的合成サンプルの小さなセットに凝縮させることを学習する,データセット凝縮という,データ効率のよい学習のためのトレーニングセット合成手法を提案する。
いくつかのコンピュータビジョンベンチマークでその性能を厳格に評価し、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:30:52Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。