論文の概要: M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy
- arxiv url: http://arxiv.org/abs/2312.15927v2
- Date: Wed, 3 Jan 2024 16:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:11:26.770259
- Title: M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy
- Title(参考訳): M3D:最大平均差最小化によるデータセットの縮合
- Authors: Hansong Zhang, Shikun Li, Pengju Wang, Dan Zeng, Shiming Ge
- Abstract要約: 最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
- 参考スコア(独自算出の注目度): 26.227927019615446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training state-of-the-art (SOTA) deep models often requires extensive data,
resulting in substantial training and storage costs. To address these
challenges, dataset condensation has been developed to learn a small synthetic
set that preserves essential information from the original large-scale dataset.
Nowadays, optimization-oriented methods have been the primary method in the
field of dataset condensation for achieving SOTA results. However, the bi-level
optimization process hinders the practical application of such methods to
realistic and larger datasets. To enhance condensation efficiency, previous
works proposed Distribution-Matching (DM) as an alternative, which
significantly reduces the condensation cost. Nonetheless, current DM-based
methods have yielded less comparable results to optimization-oriented methods
due to their focus on aligning only the first moment of the distributions. In
this paper, we present a novel DM-based method named M3D for dataset
condensation by Minimizing the Maximum Mean Discrepancy between feature
representations of the synthetic and real images. By embedding their
distributions in a reproducing kernel Hilbert space, we align all orders of
moments of the distributions of real and synthetic images, resulting in a more
generalized condensed set. Notably, our method even surpasses the SOTA
optimization-oriented method IDC on the high-resolution ImageNet dataset.
Extensive analysis is conducted to verify the effectiveness of the proposed
method.
- Abstract(参考訳): 最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
これらの課題に対処するため、データセットの凝縮は、元の大規模データセットから必須情報を保持する小さな合成集合を学ぶために開発された。
今日では、SOTA結果を達成するためのデータセット凝縮の分野において、最適化指向の手法が主要な手法となっている。
しかし、この二段階最適化プロセスは、現実的で大規模なデータセットに対するそのような手法の実践的応用を妨げる。
凝縮効率を高めるため, 従来の配水処理(DM)を代替として提案し, 凝縮コストを大幅に削減した。
それにもかかわらず、現在のDMベースの手法は、分布の最初の瞬間だけを整列することに重点を置いているため、最適化指向の手法に匹敵する結果を得られていない。
本稿では,合成画像と実画像の特徴表現間の最大平均差を最小化することにより,データセット凝縮のためのdmベース手法であるm3dを提案する。
それらの分布を再生カーネルヒルベルト空間に埋め込むことで、実像と合成像の分布のすべての順序を整列し、より一般化された凝縮集合となる。
特に,本手法は高解像度のImageNetデータセット上でのSOTA最適化指向のIDCを超えている。
提案手法の有効性を検証するため,広範な解析を行った。
関連論文リスト
- Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - DANCE: Dual-View Distribution Alignment for Dataset Condensation [39.08022095906364]
我々は、データセットのコンディエンテーション(DANCE)のためのDMベースの新しいDual-view Distribution AligNmentを提案する。
具体的には、内部クラスの観点から複数の「中間エンコーダ」を構築し、擬似的な長期分布アライメントを行う。
クラス間の観点からは,分布キャリブレーションを行うために専門家モデルを用いる。
論文 参考訳(メタデータ) (2024-06-03T07:22:17Z) - Is Adversarial Training with Compressed Datasets Effective? [4.8576927426880125]
圧縮データセットを用いて学習したモデルに対する対向的ロバスト性の影響を示す。
本稿では,データセットの最小有限被覆(MFC)の探索に基づく,ロバスト性を考慮した新しいデータセット圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-02-08T13:53:11Z) - Dataset Distillation via the Wasserstein Metric [35.32856617593164]
最適な輸送理論に基づく計量であるワッサーシュタイン距離を導入し, データセット蒸留における分布整合性を高める。
提案手法は,高解像度データセットにまたがって,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-30T13:15:28Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。