論文の概要: Dataset Distillation via Factorization
- arxiv url: http://arxiv.org/abs/2210.16774v1
- Date: Sun, 30 Oct 2022 08:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:07:54.354474
- Title: Dataset Distillation via Factorization
- Title(参考訳): 因子化によるデータセット蒸留
- Authors: Songhua Liu, Kai Wang, Xingyi Yang, Jingwen Ye, Xinchao Wang
- Abstract要約: 既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
- 参考スコア(独自算出の注目度): 58.8114016318593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study \xw{dataset distillation (DD)}, from a novel
perspective and introduce a \emph{dataset factorization} approach, termed
\emph{HaBa}, which is a plug-and-play strategy portable to any existing DD
baseline. Unlike conventional DD approaches that aim to produce distilled and
representative samples, \emph{HaBa} explores decomposing a dataset into two
components: data \emph{Ha}llucination networks and \emph{Ba}ses, where the
latter is fed into the former to reconstruct image samples. The flexible
combinations between bases and hallucination networks, therefore, equip the
distilled data with exponential informativeness gain, which largely increase
the representation capability of distilled datasets. To furthermore increase
the data efficiency of compression results, we further introduce a pair of
adversarial contrastive constraints on the resultant hallucination networks and
bases, which increase the diversity of generated images and inject more
discriminant information into the factorization. Extensive comparisons and
experiments demonstrate that our method can yield significant improvement on
downstream classification tasks compared with previous state of the arts, while
reducing the total number of compressed parameters by up to 65\%. Moreover,
distilled datasets by our approach also achieve \textasciitilde10\% higher
accuracy than baseline methods in cross-architecture generalization. Our code
is available \href{https://github.com/Huage001/DatasetFactorization}{here}.
- Abstract(参考訳): 本稿では,新しい視点から<xw{dataset distillation (dd) を考察し,既存のddベースラインに対応可能なプラグ・アンド・プレイ戦略である<emph{dataset factorization} アプローチを導入する。
蒸留と代表的なサンプルの生成を目的とした従来のddアプローチとは異なり、\emph{haba}はデータセットを2つのコンポーネントに分解する: data \emph{ha}llucination networksと \emph{ba}sesであり、後者は前者へ供給され、画像サンプルを再構築する。
塩基と幻覚ネットワークの柔軟な組み合わせにより、蒸留したデータに指数的情報性ゲインを付与し、蒸留したデータセットの表現能力を大幅に向上させる。
さらに、圧縮結果のデータ効率を向上させるために、生成した画像の多様性を高め、因子化により多くの識別情報を注入する、結果の幻覚ネットワークとベースに対する対向的コントラスト制約を導入する。
広範な比較および実験により,圧縮パラメータの総数を最大65\%削減しつつ,従来のアーツに比べて下流分類タスクにおいて有意に改善できることが示されている。
さらに,このアプローチによる蒸留データセットは,クロスアーキテクチャ一般化におけるベースライン法よりも高い精度を実現している。
私たちのコードは href{https://github.com/Huage001/DatasetFactorization}{here} で利用可能です。
関連論文リスト
- Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Hodge-Aware Contrastive Learning [101.56637264703058]
単純コンプレックスは、マルチウェイ依存によるデータのモデリングに有効である。
我々は、単純なデータを処理するための対照的な自己教師付き学習手法を開発した。
論文 参考訳(メタデータ) (2023-09-14T00:40:07Z) - Dataset Distillation Meets Provable Subset Selection [14.158845925610438]
データセット蒸留は、大規模なトレーニングデータセットを、その性能を維持する小さな合成データセットに圧縮するために提案されている。
本稿では, 重要点を特定し, 余剰点を除去することにより, 蒸留セットを初期化するための, 実証可能なサンプリングベースアプローチを提案する。
さらに,次のバッチをランダムにサンプリングするのではなく,''サンプル点の蒸留セットをトレーニングすることで,データセットの蒸留とデータサブセット選択のアイデアを融合する。
論文 参考訳(メタデータ) (2023-07-16T15:58:19Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。