論文の概要: Is Adversarial Training with Compressed Datasets Effective?
- arxiv url: http://arxiv.org/abs/2402.05675v2
- Date: Mon, 07 Apr 2025 17:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:06:00.180009
- Title: Is Adversarial Training with Compressed Datasets Effective?
- Title(参考訳): 圧縮データセットを用いた対人訓練は有効か?
- Authors: Tong Chen, Raghavendra Selvan,
- Abstract要約: 圧縮データセットを用いて学習したモデルに対する対向的ロバスト性の影響について検討する。
本稿では,データセットの最小有限被覆(MFC)を探索し,ロバスト性を考慮したデータセット圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 4.111923364990037
- License:
- Abstract: Dataset Condensation (DC) refers to the recent class of dataset compression methods that generate a smaller, synthetic, dataset from a larger dataset. This synthetic dataset aims to retain the essential information of the original dataset, enabling models trained on it to achieve performance levels comparable to those trained on the full dataset. Most current DC methods have mainly concerned with achieving high test performance with limited data budget, and have not directly addressed the question of adversarial robustness. In this work, we investigate the impact of adversarial robustness on models trained with compressed datasets. We show that the compressed datasets obtained from DC methods are not effective in transferring adversarial robustness to models. As a solution to improve dataset compression efficiency and adversarial robustness simultaneously, we present a robustness-aware dataset compression method based on finding the Minimal Finite Covering (MFC) of the dataset. The proposed method is (1) provably robust by minimizing the generalized adversarial loss, (2) more effective than DC methods when applying adversarial training over MFC, (3) obtained by a one-time computation and is applicable for any model.
- Abstract(参考訳): Dataset Condensation (DC)は、大規模なデータセットからより小さく合成されたデータセットを生成する、最近のデータセット圧縮手法のクラスを指す。
この合成データセットは、オリジナルのデータセットの本質的な情報を保持することを目的としており、トレーニングされたモデルが、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスレベルを達成することができる。
現在のDC手法の多くは、データ予算の制限による高いテスト性能の実現を主な目的としており、直接的に敵の堅牢性の問題に対処していない。
本研究では,圧縮データセットを用いて学習したモデルに対する対向的ロバスト性の影響について検討する。
本研究は,直流法から得られた圧縮データセットが,モデルへの対向ロバスト性伝達に有効でないことを示す。
そこで本研究では,データセットの最小有限被覆(MFC)の探索に基づく,頑健性を考慮したデータセット圧縮手法を提案する。
提案手法は,(1)汎用対向損失を最小化し,(2)MFC上での対向訓練を行う場合のDC法よりも有効であり,(3)ワンタイム計算により得られたモデルに適用可能である。
関連論文リスト
- Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity [55.03958223190181]
本稿では,データ類似性の下での非バイアス圧縮とバイアス圧縮を利用した,理論上初めての高速化アルゴリズムを提案する。
我々の結果は、異なる平均損失とデータセットに関する実験によって記録され、確認されています。
論文 参考訳(メタデータ) (2024-12-21T00:40:58Z) - Going Beyond Feature Similarity: Effective Dataset distillation based on Class-aware Conditional Mutual Information [43.44508080585033]
本稿では,データセットのクラス認識複雑性を評価するために,条件付き相互情報(CMI)を導入する。
合成データセットのクラス認識複雑性を制約しながら,蒸留損失を最小限に抑える。
論文 参考訳(メタデータ) (2024-12-13T08:10:47Z) - A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。
伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。
ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文 参考訳(メタデータ) (2024-11-23T17:35:23Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:45:32Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。