論文の概要: Scale-up Unlearnable Examples Learning with High-Performance Computing
- arxiv url: http://arxiv.org/abs/2501.06080v1
- Date: Fri, 10 Jan 2025 16:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:56.013213
- Title: Scale-up Unlearnable Examples Learning with High-Performance Computing
- Title(参考訳): ハイパフォーマンスコンピューティングによるスケールアップ不可能な学習例
- Authors: Yanfan Zhu, Issac Lyngaas, Murali Gopalakrishnan Meena, Mary Ellen I. Koran, Bradley Malin, Daniel Moyer, Shunxing Bao, Anuj Kapadia, Xiao Wang, Bennett Landman, Yuankai Huo,
- Abstract要約: Unlearnable Examples (UEs) は、ディープラーニングモデルに対してデータを学習不能にすることを目的としている。
Summitスーパーコンピュータ上でDDP(Distributed Data Parallel)トレーニングを用いて,さまざまなデータセットを対象としたUC学習をスケールアップした。
以上の結果から,大きすぎるバッチサイズと小さすぎるバッチサイズの両方が,パフォーマンスの不安定さと精度に影響を及ぼすことが明らかとなった。
- 参考スコア(独自算出の注目度): 7.410014640563799
- License:
- Abstract: Recent advancements in AI models are structured to retain user interactions, which could inadvertently include sensitive healthcare data. In the healthcare field, particularly when radiologists use AI-driven diagnostic tools hosted on online platforms, there is a risk that medical imaging data may be repurposed for future AI training without explicit consent, spotlighting critical privacy and intellectual property concerns around healthcare data usage. Addressing these privacy challenges, a novel approach known as Unlearnable Examples (UEs) has been introduced, aiming to make data unlearnable to deep learning models. A prominent method within this area, called Unlearnable Clustering (UC), has shown improved UE performance with larger batch sizes but was previously limited by computational resources. To push the boundaries of UE performance with theoretically unlimited resources, we scaled up UC learning across various datasets using Distributed Data Parallel (DDP) training on the Summit supercomputer. Our goal was to examine UE efficacy at high-performance computing (HPC) levels to prevent unauthorized learning and enhance data security, particularly exploring the impact of batch size on UE's unlearnability. Utilizing the robust computational capabilities of the Summit, extensive experiments were conducted on diverse datasets such as Pets, MedMNist, Flowers, and Flowers102. Our findings reveal that both overly large and overly small batch sizes can lead to performance instability and affect accuracy. However, the relationship between batch size and unlearnability varied across datasets, highlighting the necessity for tailored batch size strategies to achieve optimal data protection. Our results underscore the critical role of selecting appropriate batch sizes based on the specific characteristics of each dataset to prevent learning and ensure data security in deep learning applications.
- Abstract(参考訳): AIモデルの最近の進歩は、ユーザーインタラクションを維持するために構成されている。
医療分野では、特に放射線技師がオンラインプラットフォームにホストされたAI駆動診断ツールを使用する場合、医療画像データは明示的な同意なしに将来のAIトレーニングのために再利用される可能性があり、医療データの使用に関する重要なプライバシーと知的財産権の懸念が浮き彫りになる。
これらのプライバシー問題に対処するため、Unlearnable Examples(UEs)と呼ばれる新しいアプローチが導入された。
この領域において、Unlearnable Clustering (UC) と呼ばれる顕著な手法は、より大きなバッチサイズでUEのパフォーマンスを改善したが、以前は計算資源によって制限されていた。
UE性能の境界を理論的に無制限なリソースで推し進めるため,Summitスーパーコンピュータ上での分散データ並列(DDP)トレーニングを用いて,さまざまなデータセットにわたるUC学習をスケールアップした。
我々のゴールは、ハイパフォーマンスコンピューティング(HPC)レベルにおけるUEの有効性を調べ、不正な学習を防ぎ、データセキュリティを高めることであり、特に、バッチサイズがUEの非学習性に与える影響を探ることであった。
Summitの堅牢な計算機能を活用して、Pets、MedMNist、Flowers、Flowers102といったさまざまなデータセットで広範な実験が行われた。
以上の結果から,大きすぎるバッチサイズと小さすぎるバッチサイズの両方が,パフォーマンスの不安定さと精度に影響を及ぼすことが明らかとなった。
しかし、バッチサイズと非学習性の関係はデータセットによって異なり、最適なデータ保護を実現するためには、適切なバッチサイズ戦略が必要であることが強調されている。
本結果は,ディープラーニングアプリケーションにおける学習の防止とデータセキュリティ確保のために,各データセットの特徴に基づいて,適切なバッチサイズを選択することの重要性を強調した。
関連論文リスト
- An Efficient Contrastive Unimodal Pretraining Method for EHR Time Series Data [35.943089444017666]
本稿では,長期臨床経過データに適した比較事前学習法を提案する。
本モデルでは, 臨床医が患者の症状についてより深い知見を得られるように, 欠損測定をインプットする能力を示す。
論文 参考訳(メタデータ) (2024-10-11T19:05:25Z) - Large-Scale Dataset Pruning in Adversarial Training through Data Importance Extrapolation [1.3124513975412255]
本稿では,少数のデータ集合からより大きなデータ集合へのデータ重要度スコアの補間に基づく新たなデータ抽出戦略を提案する。
実験的な評価では,外挿型プルーニングは頑健性を維持しつつ,データセットサイズを効率的に削減できることを示した。
論文 参考訳(メタデータ) (2024-06-19T07:23:51Z) - Ungeneralizable Examples [70.76487163068109]
学習不能なデータを作成するための現在のアプローチには、小さくて特殊なノイズが組み込まれている。
学習不能データの概念を条件付きデータ学習に拡張し、textbfUntextbf Generalizable textbfExamples (UGEs)を導入する。
UGEは認証されたユーザに対して学習性を示しながら、潜在的なハッカーに対する非学習性を維持している。
論文 参考訳(メタデータ) (2024-04-22T09:29:14Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Federated Contrastive Learning for Volumetric Medical Image Segmentation [16.3860181959878]
フェデレートラーニング(FL)は、プライバシのためのトレーニングデータをローカルに保持しながら、共有モデルを学ぶことで、この点において役立つ。
従来のFLはトレーニングのために完全にラベル付けされたデータを必要とする。
そこで本研究では,アノテーションを限定したボリューム・メディカル・イメージ・セグメンテーションのためのFCLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-23T03:47:23Z) - Role of Data Augmentation Strategies in Knowledge Distillation for
Wearable Sensor Data [6.638638309021825]
ウェアラブルデバイスにおける時系列データに対するKDの適用性と課題について検討する。
KD中に拡張アプローチを選択するコヒーレントな戦略が存在するかどうかはまだ分かっていない。
本研究は,人的活動と鎮静行動に関する大規模介入研究から得られた,小規模のデータベースを一般公開したデータベースについて考察する。
論文 参考訳(メタデータ) (2022-01-01T04:40:14Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。