論文の概要: Is Adversarial Training with Compressed Datasets Effective?
- arxiv url: http://arxiv.org/abs/2402.05675v1
- Date: Thu, 8 Feb 2024 13:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:54:23.705962
- Title: Is Adversarial Training with Compressed Datasets Effective?
- Title(参考訳): 圧縮データセットによる敵対的トレーニングは有効か?
- Authors: Tong Chen, Raghavendra Selvan
- Abstract要約: 圧縮データセットを用いて学習したモデルに対する対向的ロバスト性の影響を示す。
本稿では,データセットの最小有限被覆(MFC)の探索に基づく,ロバスト性を考慮した新しいデータセット圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 4.8576927426880125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset Condensation (DC) refers to the recent class of dataset compression
methods that generate a smaller, synthetic, dataset from a larger dataset. This
synthetic dataset retains the essential information of the original dataset,
enabling models trained on it to achieve performance levels comparable to those
trained on the full dataset. Most current DC methods have mainly concerned with
achieving high test performance with limited data budget, and have not directly
addressed the question of adversarial robustness. In this work, we investigate
the impact of adversarial robustness on models trained with compressed
datasets. We show that the compressed datasets obtained from DC methods are not
effective in transferring adversarial robustness to models. As a solution to
improve dataset compression efficiency and adversarial robustness
simultaneously, we propose a novel robustness-aware dataset compression method
based on finding the Minimal Finite Covering (MFC) of the dataset. The proposed
method is (1) obtained by one-time computation and is applicable for any model,
(2) more effective than DC methods when applying adversarial training over MFC,
(3) provably robust by minimizing the generalized adversarial loss.
Additionally, empirical evaluation on three datasets shows that the proposed
method is able to achieve better robustness and performance trade-off compared
to DC methods such as distribution matching.
- Abstract(参考訳): Dataset Condensation (DC)は、大規模なデータセットからより小さく合成されたデータセットを生成する、最近のデータセット圧縮手法のクラスを指す。
この合成データセットは、元のデータセットの本質的な情報を保持し、トレーニングされたモデルが、フルデータセットでトレーニングされたモデルと同等のパフォーマンスレベルを達成することができる。
現在のdc法のほとんどは、データ予算の制限による高いテスト性能の実現に主眼を置いており、敵対的ロバスト性の問題に直接は対処していない。
本研究では,圧縮データセットで学習したモデルに対する逆ロバスト性の影響について検討する。
本研究は,直流法から得られた圧縮データセットが,モデルへの対向ロバスト性伝達に有効でないことを示す。
本稿では,データセットの最小有限被覆量(mfc)を求めることにより,データセットの圧縮効率と逆ロバスト性を同時に向上させるための新しいロバスト性対応データセット圧縮法を提案する。
提案手法は,(1) 単時間計算により得られた手法で, 任意のモデルに適用可能であり, (2) MFC 上での対向訓練を行う場合の DC 法よりも有効である。
さらに,3つのデータセットに対する実験結果から,提案手法は分散マッチングなどの直流方式と比較して,ロバスト性や性能トレードオフを向上できることが示された。
関連論文リスト
- A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。
伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。
ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文 参考訳(メタデータ) (2024-11-23T17:35:23Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - M3D: Dataset Condensation by Minimizing Maximum Mean Discrepancy [26.227927019615446]
最先端の訓練(SOTA)の深層モデルは、しばしば膨大なデータを必要とするため、かなりの訓練と保存コストがかかる。
データセットの凝縮は、オリジナルの大規模データセットから必須情報を保存する小さな合成集合を学ぶために開発された。
本稿では,最大平均離散度を最小化することにより,データセットの凝縮を最小化するためのM3Dという新しいDMベースの手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:45:32Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Dataset Condensation with Contrastive Signals [41.195453119305746]
勾配マッチングに基づくデータセット合成(DC)手法は、データ効率の学習タスクに適用した場合、最先端のパフォーマンスを達成することができる。
本研究では,既存のDC手法が,タスク関連情報がトレーニングデータセットの重要な部分を形成する場合に,ランダム選択法よりも性能が劣ることを示す。
本稿では,クラス間の差異を効果的に捉えるために,損失関数を変更することで,コントラスト信号(DCC)を用いたデータセット凝縮を提案する。
論文 参考訳(メタデータ) (2022-02-07T03:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。