論文の概要: MIM4DD: Mutual Information Maximization for Dataset Distillation
- arxiv url: http://arxiv.org/abs/2312.16627v1
- Date: Wed, 27 Dec 2023 16:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 18:25:25.539615
- Title: MIM4DD: Mutual Information Maximization for Dataset Distillation
- Title(参考訳): MIM4DD:データセット蒸留のための相互情報の最大化
- Authors: Yuzhang Shang, Zhihang Yuan, Yan Yan
- Abstract要約: 合成データセットと実データセット間の共有情報を定量化する指標として相互情報(MI)を導入する。
コントラスト学習フレームワーク内で,MIを最適化可能な新しい設計により,MIM4DDを数値的に最大化する手法を考案する。
実験の結果,MIM4DDは既存のSoTA DDメソッドのアドオンモジュールとして実装可能であることがわかった。
- 参考スコア(独自算出の注目度): 15.847690902246727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation (DD) aims to synthesize a small dataset whose test
performance is comparable to a full dataset using the same model.
State-of-the-art (SoTA) methods optimize synthetic datasets primarily by
matching heuristic indicators extracted from two networks: one from real data
and one from synthetic data (see Fig.1, Left), such as gradients and training
trajectories. DD is essentially a compression problem that emphasizes
maximizing the preservation of information contained in the data. We argue that
well-defined metrics which measure the amount of shared information between
variables in information theory are necessary for success measurement but are
never considered by previous works. Thus, we introduce mutual information (MI)
as the metric to quantify the shared information between the synthetic and the
real datasets, and devise MIM4DD numerically maximizing the MI via a newly
designed optimizable objective within a contrastive learning framework to
update the synthetic dataset. Specifically, we designate the samples in
different datasets that share the same labels as positive pairs and vice versa
negative pairs. Then we respectively pull and push those samples in positive
and negative pairs into contrastive space via minimizing NCE loss. As a result,
the targeted MI can be transformed into a lower bound represented by feature
maps of samples, which is numerically feasible. Experiment results show that
MIM4DD can be implemented as an add-on module to existing SoTA DD methods.
- Abstract(参考訳): dataset distillation(dd)は、テストパフォーマンスが同じモデルを使った完全なデータセットに匹敵する小さなデータセットを合成することを目的としている。
State-of-the-art (SoTA) の手法は、主に2つのネットワークから抽出されたヒューリスティックな指標(実データと合成データ(図1参照))をマッチングすることで合成データセットを最適化する。
DDは、データに含まれる情報の保存を最大化することを強調する圧縮問題である。
情報理論における変数間の共有情報量を測定するための明確な指標は、成功の測定には必要であるが、以前の研究では考慮されていない。
そこで我々は,合成データセットと実データセット間の共有情報を定量化するための指標として相互情報(MI)を導入し,比較学習フレームワーク内で新たに設計された最適化可能な目的によってMIを数値的に最大化し,合成データセットを更新する。
具体的には、正のペアと負のペアと同一のラベルを共有する異なるデータセットにサンプルを指定します。
そして、NCE損失を最小化することにより、正対と負対のサンプルをそれぞれコントラスト空間に押し込みます。
その結果、対象とするmiは、サンプルの特徴マップで表される下界に変換でき、数値的に実現可能である。
実験の結果,MIM4DDは既存のSoTA DDメソッドのアドオンモジュールとして実装可能であることがわかった。
関連論文リスト
- Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - MDM: Advancing Multi-Domain Distribution Matching for Automatic Modulation Recognition Dataset Synthesis [35.07663680944459]
ディープラーニング技術は、AMR(Automatic Modulation Recognition)タスクにうまく導入されている。
ディープラーニングの成功はすべて、大規模なデータセットのトレーニングによるものだ。
大量のデータの問題を解決するため、一部の研究者はデータ蒸留法を提唱した。
論文 参考訳(メタデータ) (2024-08-05T14:16:54Z) - Dataset Condensation with Latent Quantile Matching [5.466962214217334]
電流分布マッチング (DM) に基づく直流法は, 合成外乱と実外乱の遅延埋め込みの平均をマッチングすることにより, 合成データセットを学習する。
本稿では,2つの分布間の適合試験統計量の良さを最小化するために,遅延埋め込みの量子化と一致する潜在量子マッチング(LQM)を提案する。
論文 参考訳(メタデータ) (2024-06-14T09:20:44Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Sequential Subset Matching for Dataset Distillation [44.322842898670565]
我々はSeqMatch(Sequential Subset Matching)と呼ばれる新しいデータセット蒸留戦略を提案する。
解析の結果,SeqMatchは合成インスタンスを逐次生成することで,結合問題に効果的に対処できることが示唆された。
私たちのコードはhttps://github.com/shqii1j/seqmatch.comから入手可能です。
論文 参考訳(メタデータ) (2023-11-02T19:49:11Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching [19.8751746334929]
合成データセットのサイズが大きくなるにつれて有効なアルゴリズムを提案する。
実験により, 一致する軌道の訓練段階が, 蒸留データセットの有効性に大きく影響していることが判明した。
そこで我々は,軌道マッチングに基づく手法を大規模合成データセットに拡張することに成功している。
論文 参考訳(メタデータ) (2023-10-09T14:57:41Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。