論文の概要: Group Distributionally Robust Dataset Distillation with Risk Minimization
- arxiv url: http://arxiv.org/abs/2402.04676v3
- Date: Sat, 01 Feb 2025 19:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:08:02.148922
- Title: Group Distributionally Robust Dataset Distillation with Risk Minimization
- Title(参考訳): リスク最小化を考慮した群分散ロバストデータセット蒸留
- Authors: Saeed Vahidian, Mingyu Wang, Jianyang Gu, Vyacheslav Kungurtsev, Wei Jiang, Yiran Chen,
- Abstract要約: 本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
我々は、我々のアプローチに理論的根拠を与え、その効果的な一般化と部分群間のロバスト性を示す。
- 参考スコア(独自算出の注目度): 17.05513836324578
- License:
- Abstract: Dataset distillation (DD) has emerged as a widely adopted technique for crafting a synthetic dataset that captures the essential information of a training dataset, facilitating the training of accurate neural models. Its applications span various domains, including transfer learning, federated learning, and neural architecture search. The most popular methods for constructing the synthetic data rely on matching the convergence properties of training the model with the synthetic dataset and the training dataset. However, using the empirical loss as the criterion must be thought of as auxiliary in the same sense that the training set is an approximate substitute for the population distribution, and the latter is the data of interest. Yet despite its popularity, an aspect that remains unexplored is the relationship of DD to its generalization, particularly across uncommon subgroups. That is, how can we ensure that a model trained on the synthetic dataset performs well when faced with samples from regions with low population density? Here, the representativeness and coverage of the dataset become salient over the guaranteed training error at inference. Drawing inspiration from distributionally robust optimization, we introduce an algorithm that combines clustering with the minimization of a risk measure on the loss to conduct DD. We provide a theoretical rationale for our approach and demonstrate its effective generalization and robustness across subgroups through numerical experiments. The source code is available at https://github.com/Mming11/RobustDatasetDistillation.
- Abstract(参考訳): データセット蒸留(DD)は、トレーニングデータセットの本質的な情報をキャプチャーし、正確なニューラルネットワークのトレーニングを容易にする合成データセットを作成するために広く採用されている技術である。
そのアプリケーションは、トランスファーラーニング、フェデレーションラーニング、ニューラルアーキテクチャサーチなど、さまざまな領域にまたがっている。
合成データを構築する最も一般的な方法は、モデルの収束特性と、合成データセットとトレーニングデータセットとの整合性に依存する。
しかし、経験的損失を基準として、トレーニングセットが人口分布の近似代用であり、後者が関心データであるという意味で補助的なものとみなす必要がある。
しかし、その人気にもかかわらず、まだ探索されていない側面は、DDとその一般化、特に非共通部分群の間の関係である。
つまり、人口密度の低い地域からのサンプルに直面する場合、どのようにして合成データセットでトレーニングされたモデルがうまく機能するかを保証することができるのか?
ここでは、推論時に保証されたトレーニングエラーに対してデータセットの表現性とカバレッジが順調になる。
本稿では,分散的ロバストな最適化からインスピレーションを得て,クラスタリングとDDを遂行する損失に対するリスク尺度の最小化を組み合わせたアルゴリズムを提案する。
我々は,提案手法の理論的理論的根拠を提供し,その有効一般化と,数値実験による部分群間のロバスト性を示す。
ソースコードはhttps://github.com/Mming11/RobustDatasetDistillationで入手できる。
関連論文リスト
- Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-31T21:45:34Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Inducing Data Amplification Using Auxiliary Datasets in Adversarial
Training [7.513100214864646]
本稿では,プライマリデータセット上でのトレーニングデータ増幅を誘導するバイアス付きマルチドメイン逆トレーニング(BiaMAT)手法を提案する。
提案手法は, 補助データセットを活用することにより, 一次データセット上での対向性の向上を実現することができる。
論文 参考訳(メタデータ) (2022-09-27T09:21:40Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。