論文の概要: DC-BENCH: Dataset Condensation Benchmark
- arxiv url: http://arxiv.org/abs/2207.09639v1
- Date: Wed, 20 Jul 2022 03:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:30:22.694279
- Title: DC-BENCH: Dataset Condensation Benchmark
- Title(参考訳): DC-BENCH:データセット凝縮ベンチマーク
- Authors: Justin Cui, Ruochen Wang, Si Si, Cho-Jui Hsieh
- Abstract要約: この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
- 参考スコア(独自算出の注目度): 79.18718490863908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset Condensation is a newly emerging technique aiming at learning a tiny
dataset that captures the rich information encoded in the original dataset. As
the size of datasets contemporary machine learning models rely on becomes
increasingly large, condensation methods become a prominent direction for
accelerating network training and reducing data storage. Despite numerous
methods have been proposed in this rapidly growing field, evaluating and
comparing different condensation methods is non-trivial and still remains an
open issue. The quality of condensed dataset are often shadowed by many
critical contributing factors to the end performance, such as data augmentation
and model architectures. The lack of a systematic way to evaluate and compare
condensation methods not only hinders our understanding of existing techniques,
but also discourages practical usage of the synthesized datasets. This work
provides the first large-scale standardized benchmark on Dataset Condensation.
It consists of a suite of evaluations to comprehensively reflect the
generability and effectiveness of condensation methods through the lens of
their generated dataset. Leveraging this benchmark, we conduct a large-scale
study of current condensation methods, and report many insightful findings that
open up new possibilities for future development. The benchmark library,
including evaluators, baseline methods, and generated datasets, is open-sourced
to facilitate future research and application.
- Abstract(参考訳): Dataset Condensationは、オリジナルのデータセットにエンコードされたリッチな情報をキャプチャする小さなデータセットの学習を目的とした、新たに登場したテクニックである。
データセットのサイズが大きくなるにつれて、現代の機械学習モデルはますます大きくなり、凝縮法はネットワークトレーニングを加速し、データストレージを減らすための重要な方向となる。
この急速に成長する分野では、多くの方法が提案されているが、異なる凝縮法の評価と比較は簡単ではない。
凝縮データセットの品質は、データ拡張やモデルアーキテクチャなど、エンドパフォーマンスへの多くの重要な寄与要因によって、しばしばシャドーされる。
凝縮法の評価と比較のための体系的な方法の欠如は、既存の技術の理解を妨げるだけでなく、合成データセットの実用化を妨げている。
この作業は、Dataset Condensationに関する最初の大規模標準ベンチマークを提供する。
それは、生成したデータセットのレンズを通して、凝縮法の生成可能性と有効性を包括的に反映する一連の評価からなる。
このベンチマークを活用し,現在の凝縮法を大規模に検討し,今後の展開に新たな可能性を開く洞察に富んだ知見を多数報告する。
評価器、ベースラインメソッド、生成されたデータセットを含むベンチマークライブラリは、将来の研究と応用を促進するためにオープンソース化されている。
関連論文リスト
- Koopcon: A new approach towards smarter and less complex learning [13.053285552524052]
ビッグデータの時代、データセットの膨大な量と複雑さは、機械学習において大きな課題を引き起こします。
本稿では,クープマン演算子理論を背景とした,革新的オートエンコーダに基づくデータセット凝縮モデルを提案する。
人間の脳の予測的コーディング機構にインスパイアされた我々のモデルは、データをエンコードし再構成するための新しいアプローチを活用する。
論文 参考訳(メタデータ) (2024-05-22T17:47:14Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T09:55:31Z) - Dataset Condensation with Gradient Matching [36.14340188365505]
本研究では,大規模なデータセットを,深層ニューラルネットワークをスクラッチからトレーニングするための情報的合成サンプルの小さなセットに凝縮させることを学習する,データセット凝縮という,データ効率のよい学習のためのトレーニングセット合成手法を提案する。
いくつかのコンピュータビジョンベンチマークでその性能を厳格に評価し、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。