論文の概要: Large-Scale Dataset Pruning in Adversarial Training through Data Importance Extrapolation
- arxiv url: http://arxiv.org/abs/2406.13283v1
- Date: Wed, 19 Jun 2024 07:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 22:49:46.548351
- Title: Large-Scale Dataset Pruning in Adversarial Training through Data Importance Extrapolation
- Title(参考訳): データ重要度外挿による対人訓練における大規模データ・プルーニング
- Authors: Björn Nieth, Thomas Altstidl, Leo Schwinn, Björn Eskofier,
- Abstract要約: 本稿では,少数のデータ集合からより大きなデータ集合へのデータ重要度スコアの補間に基づく新たなデータ抽出戦略を提案する。
実験的な評価では,外挿型プルーニングは頑健性を維持しつつ,データセットサイズを効率的に削減できることを示した。
- 参考スコア(独自算出の注目度): 1.3124513975412255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Their vulnerability to small, imperceptible attacks limits the adoption of deep learning models to real-world systems. Adversarial training has proven to be one of the most promising strategies against these attacks, at the expense of a substantial increase in training time. With the ongoing trend of integrating large-scale synthetic data this is only expected to increase even further. Thus, the need for data-centric approaches that reduce the number of training samples while maintaining accuracy and robustness arises. While data pruning and active learning are prominent research topics in deep learning, they are as of now largely unexplored in the adversarial training literature. We address this gap and propose a new data pruning strategy based on extrapolating data importance scores from a small set of data to a larger set. In an empirical evaluation, we demonstrate that extrapolation-based pruning can efficiently reduce dataset size while maintaining robustness.
- Abstract(参考訳): 彼らの小さな、受け入れがたい攻撃に対する脆弱性は、現実世界のシステムへのディープラーニングモデルの採用を制限する。
敵の訓練は、訓練時間の大幅な増加を犠牲にして、これらの攻撃に対して最も有望な戦略の1つであることが証明されている。
大規模な合成データの統合が進行中であるため、さらなる増加が期待されている。
したがって、正確性と堅牢性を維持しながら、トレーニングサンプルの数を減らすデータ中心のアプローチの必要性が生じる。
データプルーニングとアクティブラーニングは深層学習において顕著な研究テーマであるが、現在では敵の訓練文学においてほとんど解明されていない。
このギャップに対処し、小さなデータセットからより大きなデータセットへのデータ重要度スコアの補間に基づく新しいデータプルーニング戦略を提案する。
実験的な評価では,外挿型プルーニングは頑健性を維持しつつ,データセットサイズを効率的に削減できることを示した。
関連論文リスト
- Sexism Detection on a Data Diet [14.899608305188002]
モデルのトレーニング中に、インフルエンススコアを利用してデータポイントの重要性を推定する方法を示します。
ドメイン外の3つのデータセット上で異なるプルーニング戦略を用いて、データプルーニングに基づいてトレーニングされたモデル性能を評価する。
論文 参考訳(メタデータ) (2024-06-07T12:39:54Z) - An In-Depth Analysis of Data Reduction Methods for Sustainable Deep Learning [0.15833270109954137]
トレーニングデータセットのサイズを減らすために、最大8つの異なる方法を提示します。
また、それらを適用するPythonパッケージも開発しています。
これらのデータ削減手法がデータセットの表現性に与える影響を実験的に比較した。
論文 参考訳(メタデータ) (2024-03-22T12:06:40Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Re-thinking Data Availablity Attacks Against Deep Neural Networks [53.64624167867274]
本稿では、未学習例の概念を再検討し、既存のロバストな誤り最小化ノイズが不正確な最適化目標であることを示す。
本稿では,計算時間要件の低減による保護性能の向上を図った新しい最適化パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:03:51Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Membership Inference Attacks via Adversarial Examples [5.721380617450644]
会員推論攻撃は、学習アルゴリズムが使用するトレーニングデータの回復を目的とした研究の新たな方向である。
本研究では,トレーニングモデルの総変動のプロキシとして現れる量を利用して,トレーニングデータの漏洩を測定する手段を開発する。
論文 参考訳(メタデータ) (2022-07-27T15:10:57Z) - A Deep-Learning Intelligent System Incorporating Data Augmentation for
Short-Term Voltage Stability Assessment of Power Systems [9.299576471941753]
本稿では,電力系統のSTVSAにデータ拡張を取り入れた新しいディープラーニング知能システムを提案する。
半教師付きクラスタ学習を利用して、ラベル付きサンプルを元の小さなデータセットで取得する。
条件付き最小二乗生成逆数ネットワーク(LSGAN)ベースのデータ拡張を導入し、元のデータセットを拡張する。
論文 参考訳(メタデータ) (2021-12-05T11:40:54Z) - The Imaginative Generative Adversarial Network: Automatic Data
Augmentation for Dynamic Skeleton-Based Hand Gesture and Human Action
Recognition [27.795763107984286]
本稿では、入力データの分布を近似し、この分布から新しいデータをサンプリングする新しい自動データ拡張モデルを提案する。
以上の結果から,拡張戦略は訓練が高速であり,ニューラルネットワークと最先端手法の両方の分類精度を向上させることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-05-27T11:07:09Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。