論文の概要: Dataset Distillation with Neural Characteristic Function: A Minmax Perspective
- arxiv url: http://arxiv.org/abs/2502.20653v1
- Date: Fri, 28 Feb 2025 02:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:13.590674
- Title: Dataset Distillation with Neural Characteristic Function: A Minmax Perspective
- Title(参考訳): ニューラル特徴関数を持つデータセット蒸留:最小視点
- Authors: Shaobo Wang, Yicun Yang, Zhiyuan Liu, Chenghao Sun, Xuming Hu, Conghui He, Linfeng Zhang,
- Abstract要約: minmax最適化問題としてデータセット蒸留を再構成し、ニューラル特徴関数離散性(NCFD)を導入する。
NCFDは分布差を測定するための包括的で理論的に基礎付けられた計量である。
提案手法は,低解像度および高解像度のデータセット上での最先端手法よりも高い性能向上を実現する。
- 参考スコア(独自算出の注目度): 39.77640775591437
- License:
- Abstract: Dataset distillation has emerged as a powerful approach for reducing data requirements in deep learning. Among various methods, distribution matching-based approaches stand out for their balance of computational efficiency and strong performance. However, existing distance metrics used in distribution matching often fail to accurately capture distributional differences, leading to unreliable measures of discrepancy. In this paper, we reformulate dataset distillation as a minmax optimization problem and introduce Neural Characteristic Function Discrepancy (NCFD), a comprehensive and theoretically grounded metric for measuring distributional differences. NCFD leverages the Characteristic Function (CF) to encapsulate full distributional information, employing a neural network to optimize the sampling strategy for the CF's frequency arguments, thereby maximizing the discrepancy to enhance distance estimation. Simultaneously, we minimize the difference between real and synthetic data under this optimized NCFD measure. Our approach, termed Neural Characteristic Function Matching (\mymethod{}), inherently aligns the phase and amplitude of neural features in the complex plane for both real and synthetic data, achieving a balance between realism and diversity in synthetic samples. Experiments demonstrate that our method achieves significant performance gains over state-of-the-art methods on both low- and high-resolution datasets. Notably, we achieve a 20.5\% accuracy boost on ImageSquawk. Our method also reduces GPU memory usage by over 300$\times$ and achieves 20$\times$ faster processing speeds compared to state-of-the-art methods. To the best of our knowledge, this is the first work to achieve lossless compression of CIFAR-100 on a single NVIDIA 2080 Ti GPU using only 2.3 GB of memory.
- Abstract(参考訳): 深層学習におけるデータ要求を減らすための強力なアプローチとしてデータセットの蒸留が登場した。
様々な手法の中で、分散マッチングに基づくアプローチは、計算効率と高い性能のバランスにおいて際立っている。
しかし、分布マッチングで使われている既存の距離メトリクスは、しばしば分布の差を正確に捉えることができず、信頼性の低い不一致の尺度に繋がる。
本稿では,データセットの蒸留を最小限の最適化問題として再構成し,分布差を測定するための包括的かつ理論的に基礎付けられた指標であるニューラル特徴関数離散性(NCFD)を導入する。
NCFDは特徴関数(CF)を利用して完全な分布情報をカプセル化し、ニューラルネットワークを用いてCFの周波数引数のサンプリング戦略を最適化し、誤差を最大化して距離推定を強化する。
同時に、この最適化されたNCFD尺度の下で、実データと合成データの差を最小限に抑える。
我々のアプローチはニューラル特徴関数マッチング (\mymethod{}) と呼ばれ、本質的には、実データと合成データの両方に対して複素平面におけるニューラル特徴の位相と振幅を整列し、合成サンプルのリアリズムと多様性のバランスをとる。
実験により,本手法は,低解像度と高解像度の両方のデータセット上で,最先端の手法よりも高い性能が得られることを示した。
特に、ImageSquawkでは20.5\%の精度向上を実現しています。
また,GPUメモリ使用量を300$\times$以上削減し,最先端手法と比較して20$\times$高速処理を実現する。
我々の知る限りでは、2.3GBのメモリしか使用せず、単一のNVIDIA 2080 Ti GPU上でCIFAR-100のロスレス圧縮を実現する最初の試みである。
関連論文リスト
- Dataset Distillation as Pushforward Optimal Quantization [1.039189397779466]
そこで本稿では,ImageNet-1Kデータセットの性能向上を目的とした,最先端データ蒸留法D4Mの簡易拡張を提案する。
エンコーダ・デコーダ構造を組み込んだ場合、実験的に成功した不整合法を最適な量子化問題として再定義できることを実証する。
特に, 既存の不整合データセット蒸留法を古典的最適量子化法とワッサーシュタインバリセンタ問題にリンクし, 拡散型生成前処理のための蒸留データセットの整合性を示す。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - Parallel and Limited Data Voice Conversion Using Stochastic Variational
Deep Kernel Learning [2.5782420501870296]
本稿では,限られたデータを扱う音声変換手法を提案する。
変分深層学習(SVDKL)に基づく。
非滑らかでより複雑な関数を推定することができる。
論文 参考訳(メタデータ) (2023-09-08T16:32:47Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Not All Semantics are Created Equal: Contrastive Self-supervised
Learning with Automatic Temperature Individualization [51.41175648612714]
分散ロバスト最適化(DRO)に着想を得た新しい頑健なコントラスト損失を提案する。
提案アルゴリズムは,各サンプルに対して適切な$tau$を自動で学習することを示す。
提案手法は, 単モーダル・バイモーダル・データセットにおいて, 従来の強いベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-05-19T19:25:56Z) - Efficient Parametric Approximations of Neural Network Function Space
Distance [6.117371161379209]
モデルパラメータとトレーニングデータの重要な特性をコンパクトに要約して、データセット全体を保存または/または反復することなく後で使用できるようにすることが、しばしば有用である。
我々は,FSD(Function Space Distance)をトレーニングセット上で推定することを検討する。
本稿では、線形化活性化TRick (LAFTR) を提案し、ReLUニューラルネットワークに対するFSDの効率的な近似を導出する。
論文 参考訳(メタデータ) (2023-02-07T15:09:23Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - A Stochastic Bundle Method for Interpolating Networks [18.313879914379008]
本稿では,実験的な損失をゼロにすることができるディープニューラルネットワークのトレーニング手法を提案する。
各イテレーションにおいて,本手法は目的学習近似のバンドルとして知られる最大線形近似を構成する。
論文 参考訳(メタデータ) (2022-01-29T23:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。