論文の概要: Dataset Distillation via Factorization
- arxiv url: http://arxiv.org/abs/2210.16774v1
- Date: Sun, 30 Oct 2022 08:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:07:54.354474
- Title: Dataset Distillation via Factorization
- Title(参考訳): 因子化によるデータセット蒸留
- Authors: Songhua Liu, Kai Wang, Xingyi Yang, Jingwen Ye, Xinchao Wang
- Abstract要約: 既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
- 参考スコア(独自算出の注目度): 58.8114016318593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study \xw{dataset distillation (DD)}, from a novel
perspective and introduce a \emph{dataset factorization} approach, termed
\emph{HaBa}, which is a plug-and-play strategy portable to any existing DD
baseline. Unlike conventional DD approaches that aim to produce distilled and
representative samples, \emph{HaBa} explores decomposing a dataset into two
components: data \emph{Ha}llucination networks and \emph{Ba}ses, where the
latter is fed into the former to reconstruct image samples. The flexible
combinations between bases and hallucination networks, therefore, equip the
distilled data with exponential informativeness gain, which largely increase
the representation capability of distilled datasets. To furthermore increase
the data efficiency of compression results, we further introduce a pair of
adversarial contrastive constraints on the resultant hallucination networks and
bases, which increase the diversity of generated images and inject more
discriminant information into the factorization. Extensive comparisons and
experiments demonstrate that our method can yield significant improvement on
downstream classification tasks compared with previous state of the arts, while
reducing the total number of compressed parameters by up to 65\%. Moreover,
distilled datasets by our approach also achieve \textasciitilde10\% higher
accuracy than baseline methods in cross-architecture generalization. Our code
is available \href{https://github.com/Huage001/DatasetFactorization}{here}.
- Abstract(参考訳): 本稿では,新しい視点から<xw{dataset distillation (dd) を考察し,既存のddベースラインに対応可能なプラグ・アンド・プレイ戦略である<emph{dataset factorization} アプローチを導入する。
蒸留と代表的なサンプルの生成を目的とした従来のddアプローチとは異なり、\emph{haba}はデータセットを2つのコンポーネントに分解する: data \emph{ha}llucination networksと \emph{ba}sesであり、後者は前者へ供給され、画像サンプルを再構築する。
塩基と幻覚ネットワークの柔軟な組み合わせにより、蒸留したデータに指数的情報性ゲインを付与し、蒸留したデータセットの表現能力を大幅に向上させる。
さらに、圧縮結果のデータ効率を向上させるために、生成した画像の多様性を高め、因子化により多くの識別情報を注入する、結果の幻覚ネットワークとベースに対する対向的コントラスト制約を導入する。
広範な比較および実験により,圧縮パラメータの総数を最大65\%削減しつつ,従来のアーツに比べて下流分類タスクにおいて有意に改善できることが示されている。
さらに,このアプローチによる蒸留データセットは,クロスアーキテクチャ一般化におけるベースライン法よりも高い精度を実現している。
私たちのコードは href{https://github.com/Huage001/DatasetFactorization}{here} で利用可能です。
関連論文リスト
- MIM4DD: Mutual Information Maximization for Dataset Distillation [15.847690902246727]
合成データセットと実データセット間の共有情報を定量化する指標として相互情報(MI)を導入する。
コントラスト学習フレームワーク内で,MIを最適化可能な新しい設計により,MIM4DDを数値的に最大化する手法を考案する。
実験の結果,MIM4DDは既存のSoTA DDメソッドのアドオンモジュールとして実装可能であることがわかった。
論文 参考訳(メタデータ) (2023-12-27T16:22:50Z) - Hodge-Aware Contrastive Learning [101.56637264703058]
単純コンプレックスは、マルチウェイ依存によるデータのモデリングに有効である。
我々は、単純なデータを処理するための対照的な自己教師付き学習手法を開発した。
論文 参考訳(メタデータ) (2023-09-14T00:40:07Z) - Dataset Distillation Meets Provable Subset Selection [14.158845925610438]
データセット蒸留は、大規模なトレーニングデータセットを、その性能を維持する小さな合成データセットに圧縮するために提案されている。
本稿では, 重要点を特定し, 余剰点を除去することにより, 蒸留セットを初期化するための, 実証可能なサンプリングベースアプローチを提案する。
さらに,次のバッチをランダムにサンプリングするのではなく,''サンプル点の蒸留セットをトレーニングすることで,データセットの蒸留とデータサブセット選択のアイデアを融合する。
論文 参考訳(メタデータ) (2023-07-16T15:58:19Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - Embedding Expansion: Augmentation in Embedding Space for Deep Metric
Learning [17.19890778916312]
本稿では、組込み拡張と呼ばれる、ペアベースのメートル法学習損失に対する組込み空間における拡張手法を提案する。
その単純さと柔軟性のために、モデルのサイズ、トレーニング速度、最適化の難しさに影響を与えることなく、既存のメトリック学習損失に使用できる。
論文 参考訳(メタデータ) (2020-03-05T11:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。