論文の概要: Decomposed Distribution Matching in Dataset Condensation
- arxiv url: http://arxiv.org/abs/2412.04748v1
- Date: Fri, 06 Dec 2024 03:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:16.079455
- Title: Decomposed Distribution Matching in Dataset Condensation
- Title(参考訳): データセット凝縮における分解分布マッチング
- Authors: Sahar Rahimi Malakshan, Mohammad Saeed Ebrahimi Saadabadi, Ali Dabouei, Nasser M. Nasrabadi,
- Abstract要約: 最近の研究は、コストのかかる二段階最適化を回避した分布整合問題としてDCを定式化している。
本稿では,オリジナルデータとコンデンスデータのスタイル情報とを一致させる,シンプルで効果的な手法を提案する。
様々なサイズと解像度のデータセットを用いた実験により,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 16.40653529334528
- License:
- Abstract: Dataset Condensation (DC) aims to reduce deep neural networks training efforts by synthesizing a small dataset such that it will be as effective as the original large dataset. Conventionally, DC relies on a costly bi-level optimization which prohibits its practicality. Recent research formulates DC as a distribution matching problem which circumvents the costly bi-level optimization. However, this efficiency sacrifices the DC performance. To investigate this performance degradation, we decomposed the dataset distribution into content and style. Our observations indicate two major shortcomings of: 1) style discrepancy between original and condensed data, and 2) limited intra-class diversity of condensed dataset. We present a simple yet effective method to match the style information between original and condensed data, employing statistical moments of feature maps as well-established style indicators. Moreover, we enhance the intra-class diversity by maximizing the Kullback-Leibler divergence within each synthetic class, i.e., content. We demonstrate the efficacy of our method through experiments on diverse datasets of varying size and resolution, achieving improvements of up to 4.1% on CIFAR10, 4.2% on CIFAR100, 4.3% on TinyImageNet, 2.0% on ImageNet-1K, 3.3% on ImageWoof, 2.5% on ImageNette, and 5.5% in continual learning accuracy.
- Abstract(参考訳): Dataset Condensation (DC)は、小さなデータセットを合成することで、元の大規模データセットと同じくらい効果的になるように、ディープニューラルネットワークトレーニングの労力を削減することを目的としている。
従来DCは、その実用性を禁じるコストのかかる二段階最適化に依存していた。
最近の研究は、コストのかかる二段階最適化を回避した分布整合問題としてDCを定式化している。
しかし、この効率性はDC性能を犠牲にする。
この性能劣化を調べるため,データセットの分布をコンテンツとスタイルに分解した。
我々の観察は2つの大きな欠点を示唆している。
1)原データと凝縮データとのスタイルの相違
2) 凝縮データセットのクラス内多様性の制限。
本稿では,特徴写像の統計的モーメントと確立されたスタイルインジケータを用いて,原データと凝縮データのスタイル情報を一致させる簡易かつ効果的な手法を提案する。
さらに,Kulback-Leiblerの差分を最大化することにより,クラス内多様性,すなわち含量を高める。
CIFAR10では最大4.1%、CIFAR100では4.2%、TinyImageNetでは4.3%、ImageNet-1Kでは2.0%、ImageWoofでは3.3%、ImageNetteでは2.5%、継続的な学習精度では5.5%の改善を実現した。
関連論文リスト
- UDD: Dataset Distillation via Mining Underutilized Regions [10.034543678588578]
合成画像中の未利用領域を特定し,活用するための新しいアプローチであるUDDを提案する。
本稿では,未利用地域を識別・活用し,情報化・識別するための新しいアプローチであるUDDを提案する。
提案手法は, 合成データセットの利用性を向上し, 各種データセット上での最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-08-29T05:13:01Z) - Is Adversarial Training with Compressed Datasets Effective? [4.8576927426880125]
圧縮データセットを用いて学習したモデルに対する対向的ロバスト性の影響を示す。
本稿では,データセットの最小有限被覆(MFC)の探索に基づく,ロバスト性を考慮した新しいデータセット圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-02-08T13:53:11Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - Cross-feature Contrastive Loss for Decentralized Deep Learning on
Heterogeneous Data [8.946847190099206]
異種データに基づく分散学習のための新しい手法を提案する。
一対の隣接するエージェントのクロスフィーチャーは、他のエージェントのモデルパラメータに関するエージェントのデータから得られる特徴である。
実験の結果,提案手法は異種データを用いた分散学習手法に比べて性能(テスト精度が0.2~4%向上)が優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T14:48:23Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。