論文の概要: Impact of Data Duplication on Deep Neural Network-Based Image Classifiers: Robust vs. Standard Models
- arxiv url: http://arxiv.org/abs/2504.00638v2
- Date: Thu, 17 Apr 2025 16:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:33:59.252458
- Title: Impact of Data Duplication on Deep Neural Network-Based Image Classifiers: Robust vs. Standard Models
- Title(参考訳): ディープニューラルネットワークに基づく画像分類におけるデータ重複の影響:ロバスト対標準モデル
- Authors: Alireza Aghabagherloo, Aydin Abadi, Sumanta Sarkar, Vishnu Asutosh Dasu, Bart Preneel,
- Abstract要約: トレーニングセット、特に言語モデルにおける重複したデータは、かなりの注目を集めています。
本分析は, モデルトレーニングの効率に悪影響を及ぼす要因として, 重複画像の存在が示唆された。
重複サンプルが均一に選択されたとしても、重複量の増加は精度を著しく向上させるには至らない。
- 参考スコア(独自算出の注目度): 5.523654654803874
- License:
- Abstract: The accuracy and robustness of machine learning models against adversarial attacks are significantly influenced by factors such as training data quality, model architecture, the training process, and the deployment environment. In recent years, duplicated data in training sets, especially in language models, has attracted considerable attention. It has been shown that deduplication enhances both training performance and model accuracy in language models. While the importance of data quality in training image classifier Deep Neural Networks (DNNs) is widely recognized, the impact of duplicated images in the training set on model generalization and performance has received little attention. In this paper, we address this gap and provide a comprehensive study on the effect of duplicates in image classification. Our analysis indicates that the presence of duplicated images in the training set not only negatively affects the efficiency of model training but also may result in lower accuracy of the image classifier. This negative impact of duplication on accuracy is particularly evident when duplicated data is non-uniform across classes or when duplication, whether uniform or non-uniform, occurs in the training set of an adversarially trained model. Even when duplicated samples are selected in a uniform way, increasing the amount of duplication does not lead to a significant improvement in accuracy.
- Abstract(参考訳): 敵攻撃に対する機械学習モデルの正確性と堅牢性は、トレーニングデータ品質、モデルアーキテクチャ、トレーニングプロセス、デプロイメント環境などの要因に大きく影響される。
近年、訓練セット、特に言語モデルにおける重複したデータに大きな注目を集めている。
重複は言語モデルにおける訓練性能とモデルの精度の両方を高めることが示されている。
訓練画像分類器Deep Neural Networks(DNN)におけるデータ品質の重要性は広く認識されているが、トレーニングセットにおける重複画像がモデル一般化や性能に与える影響はほとんど注目されていない。
本稿では,このギャップに対処し,画像分類における重複の影響を包括的に研究する。
本分析により, モデルトレーニングの効率に悪影響を及ぼすだけでなく, 画像分類器の精度も低下する可能性が示唆された。
この重複の精度に対する負の影響は、重複データがクラス間で一様でない場合や、重複が一様であろうと一様であろうと非一様であろうと、逆向きに訓練されたモデルのトレーニングセットで発生する場合、特に顕著である。
重複サンプルが均一に選択されたとしても、重複量の増加は精度を著しく向上させるには至らない。
関連論文リスト
- MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning [1.534667887016089]
ディープニューラルネットワーク(DNN)は、わずかに敵対的な摂動に対して脆弱である。
トレーニング中の強力な特徴表現学習は、元のモデルの堅牢性を大幅に向上させることができることを示す。
本稿では,多目的特徴表現学習手法であるMORELを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:05:03Z) - CPSample: Classifier Protected Sampling for Guarding Training Data During Diffusion [58.64822817224639]
拡散モデルはトレーニングデータを正確に再現する傾向がある。
CPSampleは,画像品質を保ちながら,トレーニングデータの複製を防止するためにサンプリングプロセスを変更する手法である。
CPSample は CIFAR-10 と CelebA-64 でそれぞれ 4.97 と 2.97 の FID スコアを達成している。
論文 参考訳(メタデータ) (2024-09-11T05:42:01Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Data Attribution for Text-to-Image Models by Unlearning Synthesized Images [71.23012718682634]
テキスト・ツー・イメージ・モデルにおけるデータ帰属の目標は、新しい画像の生成に最も影響を与えるトレーニング画像を特定することである。
合成画像の非学習をシミュレートして効率的なデータ帰属法を提案する。
次に,学習過程の終了後に有意な損失偏差を伴う訓練画像を特定し,これらを影響力のあるものとしてラベル付けする。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Leaving Reality to Imagination: Robust Classification via Generated
Datasets [24.411444438920988]
近年のロバスト性に関する研究では、テストセットと同様のデータセットでトレーニングされたニューラルイメージ分類器間での顕著なパフォーマンスギャップが明らかになった。
生成したデータセットは、画像分類器の自然な堅牢性にどのように影響するのか?
生成したデータで強化された実データに基づいて訓練された画像ネット分類器は、標準トレーニングよりも精度が高く、効果的に頑健であることがわかった。
論文 参考訳(メタデータ) (2023-02-05T22:49:33Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - No One Representation to Rule Them All: Overlapping Features of Training
Methods [12.58238785151714]
ハイパフォーマンスモデルは、トレーニング方法論に関係なく、同様の予測をする傾向があります。
近年の研究では、大規模なコントラスト学習など、非常に異なるトレーニングテクニックが、競争的に高い精度で実現されている。
これらのモデルはデータの一般化に特化しており、より高いアンサンブル性能をもたらす。
論文 参考訳(メタデータ) (2021-10-20T21:29:49Z) - Stereopagnosia: Fooling Stereo Networks with Adversarial Perturbations [71.00754846434744]
知覚不能な加法的摂動は,差分マップを著しく変更できることを示す。
敵データ拡張に使用すると、我々の摂動はより堅牢なトレーニングされたモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2020-09-21T19:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。