論文の概要: ECHO: Efficient Dataset Condensation by Higher-Order Distribution
Alignment
- arxiv url: http://arxiv.org/abs/2312.15927v1
- Date: Tue, 26 Dec 2023 07:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:31:11.989527
- Title: ECHO: Efficient Dataset Condensation by Higher-Order Distribution
Alignment
- Title(参考訳): ECHO:高次分布アライメントによる効率的なデータセット凝縮
- Authors: Hansong Zhang, Shikun Li, Pengju Wang, Dan Zeng, Shiming Ge
- Abstract要約: 既存の分散マッチング手法は分布の高次アライメントを見落としており、これは準最適マッチングの結果をもたらす可能性がある。
そこで本研究では,高次分布アライメント(ECHO)による効率的なデータセット凝縮法として,DMに基づく新しい手法を提案する。
実験により,提案手法は様々なシナリオにおいて効率を保ちながら,大幅な性能向上を実現することを示した。
- 参考スコア(独自算出の注目度): 26.227927019615446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of deep learning, training deep neural networks often requires
extensive data, leading to substantial costs. Dataset condensation addresses
this by learning a small synthetic set that preserves essential information
from the original large-scale dataset. Nowadays, optimization-oriented methods
dominate dataset condensation for state-of-the-art (SOTA) results, but their
computationally intensive bi-level optimization hinders practicality with large
datasets. To enhance efficiency, as alternative solutions,
Distribution-Matching (DM)-based methods reduce costs by aligning the
representation distributions of real and synthetic examples. However, current
DM-based methods still yield less comparable results to SOTA
optimization-oriented methods. In this paper, we argue that existing DM-based
methods overlook the higher-order alignment of the distributions, which may
lead to sub-optimal matching results. Inspired by this, we propose a new
DM-based method named as Efficient Dataset Condensation by Higher-Order
Distribution Alignment (ECHO). Specifically, rather than only aligning the
first-order moment of the representation distributions as previous methods, we
learn synthetic examples via further aligning the higher-order moments of the
representation distributions of real and synthetic examples based on the
classical theory of reproducing kernel Hilbert space. Experiments demonstrate
the proposed method achieves a significant performance boost while maintaining
efficiency across various scenarios.
- Abstract(参考訳): ディープラーニングの時代では、ディープニューラルネットワークのトレーニングには膨大なデータが必要となり、かなりのコストがかかる。
データセットの凝縮は、元の大規模データセットから必須情報を保存する小さな合成集合を学習することでこれに対処する。
今日では、最適化指向の手法が最先端(sota)結果のためのデータセットの凝縮を支配しているが、計算集約的なbiレベル最適化は大規模データセットの実用性を妨げている。
代替ソリューションとして、分散マッチング(DM)ベースの手法は、実例と合成例の表現分布を整列させることでコストを削減する。
しかし、現在のDMベースの手法は、SOTA最適化指向の手法と同等ではない。
本稿では,既存のdmベース手法では分布の高次アライメントを見落としており,その結果が最適以下の結果をもたらす可能性があることを論じる。
そこで本研究では,高次分布アライメント(ECHO)による効率的なデータセット凝縮手法を提案する。
具体的には、表現分布の1次モーメントを以前の方法と整列するだけでなく、カーネルヒルベルト空間の古典的理論に基づいて実および合成例の表現分布の高次モーメントを更に整列させることで、合成例を学ぶ。
提案手法は,様々なシナリオにおける効率性を維持しながら,大幅な性能向上を実現する。
関連論文リスト
- Dataset Distillation as Pushforward Optimal Quantization [1.039189397779466]
そこで本稿では,ImageNet-1Kデータセットの性能向上を目的とした,最先端データ蒸留法D4Mの簡易拡張を提案する。
エンコーダ・デコーダ構造を組み込んだ場合、実験的に成功した不整合法を最適な量子化問題として再定義できることを実証する。
特に, 既存の不整合データセット蒸留法を古典的最適量子化法とワッサーシュタインバリセンタ問題にリンクし, 拡散型生成前処理のための蒸留データセットの整合性を示す。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - DANCE: Dual-View Distribution Alignment for Dataset Condensation [39.08022095906364]
我々は、データセットのコンディエンテーション(DANCE)のためのDMベースの新しいDual-view Distribution AligNmentを提案する。
具体的には、内部クラスの観点から複数の「中間エンコーダ」を構築し、擬似的な長期分布アライメントを行う。
クラス間の観点からは,分布キャリブレーションを行うために専門家モデルを用いる。
論文 参考訳(メタデータ) (2024-06-03T07:22:17Z) - Is Adversarial Training with Compressed Datasets Effective? [4.8576927426880125]
圧縮データセットを用いて学習したモデルに対する対向的ロバスト性の影響を示す。
本稿では,データセットの最小有限被覆(MFC)の探索に基づく,ロバスト性を考慮した新しいデータセット圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-02-08T13:53:11Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。