論文の概要: Towards Provably Unlearnable Examples via Bayes Error Optimisation
- arxiv url: http://arxiv.org/abs/2511.08191v1
- Date: Wed, 12 Nov 2025 01:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.685798
- Title: Towards Provably Unlearnable Examples via Bayes Error Optimisation
- Title(参考訳): ベイズ誤差最適化による予測不可能な事例に向けて
- Authors: Ruihan Zhang, Jun Sun, Ee-Peng Lim, Peixin Zhang,
- Abstract要約: ベイズ誤差を体系的に最大化することで、学習不可能な例を構築するための新しい手法を提案する。
提案手法はベイズ誤差を確実に増大させ,未学習例とクリーンサンプルを混合した場合も有効である。
- 参考スコア(独自算出の注目度): 14.262882776897372
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The recent success of machine learning models, especially large-scale classifiers and language models, relies heavily on training with massive data. These data are often collected from online sources. This raises serious concerns about the protection of user data, as individuals may not have given consent for their data to be used in training. To address this concern, recent studies introduce the concept of unlearnable examples, i.e., data instances that appear natural but are intentionally altered to prevent models from effectively learning from them. While existing methods demonstrate empirical effectiveness, they typically rely on heuristic trials and lack formal guarantees. Besides, when unlearnable examples are mixed with clean data, as is often the case in practice, their unlearnability disappears. In this work, we propose a novel approach to constructing unlearnable examples by systematically maximising the Bayes error, a measurement of irreducible classification error. We develop an optimisation-based approach and provide an efficient solution using projected gradient ascent. Our method provably increases the Bayes error and remains effective when the unlearning examples are mixed with clean samples. Experimental results across multiple datasets and model architectures are consistent with our theoretical analysis and show that our approach can restrict data learnability, effectively in practice.
- Abstract(参考訳): 最近の機械学習モデル、特に大規模分類器や言語モデルの成功は、大量のデータによるトレーニングに大きく依存している。
これらのデータは、しばしばオンラインソースから収集される。
これは、個人がトレーニングに使用するデータに対する同意を与えていない可能性があるため、ユーザーデータの保護に関する深刻な懸念を提起する。
この問題に対処するため、最近の研究では、自然に現れるが、モデルが効果的に学習することを防ぐために意図的に変更されるデータインスタンスという、学習不可能な例の概念を導入している。
既存の手法は経験的効果を示すが、彼らは通常ヒューリスティックな試行に頼り、正式な保証を欠いている。
さらに、多くの場合の場合のように、学習不可能な例とクリーンなデータが混ざり合っていると、学習不能は消える。
本研究では,ベイズ誤差を体系的に最大化することにより,学習不可能な例を構築するための新しい手法を提案する。
我々は最適化に基づく手法を開発し、投射勾配上昇を用いた効率的な解を提供する。
提案手法はベイズ誤差を確実に増大させ,未学習例とクリーンサンプルを混合した場合も有効である。
複数のデータセットとモデルアーキテクチャにまたがる実験結果は、我々の理論解析と一致しており、我々のアプローチがデータ学習可能性を制限することができることを示す。
関連論文リスト
- How Far Are We from True Unlearnability? [8.176905459241047]
学習不可能なサンプル(UE)を生成するために、データのトレーニング可用性を妥協して、いくつかの学習不可能な手法が提案されている。
私たちはどの程度、真に学べない例が得られないのか調査しています。
クリーンモデルおよび有毒モデルにおけるパラメータのSAL分布に基づいて、データの非有毒度を測定するための非有毒距離(UD)を提案する。
論文 参考訳(メタデータ) (2025-09-09T18:01:10Z) - Statistically Testing Training Data for Unwanted Error Patterns using Rule-Oriented Regression [0.5831737970661137]
本稿では,欠陥に対するトレーニングデータをテストし,その後の機械学習モデルのトレーニングのための信頼性の高い基盤構造を確立する方法を提案する。
我々の手法は、テスト条件'をデータ内のパターンを記述する条件とすることで、従来の統計的テストの能力を拡張します。
デモと実験のためのオープンソース実装を提供しています。
論文 参考訳(メタデータ) (2025-03-24T09:52:36Z) - Ask Your Distribution Shift if Pre-Training is Right for You [67.90850628695563]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Neural Active Learning on Heteroskedastic Distributions [29.01776999862397]
ヘテロスケダスティックデータセット上でのアクティブ学習アルゴリズムの破滅的な失敗を実証する。
本稿では,各データポイントにモデル差分スコアリング関数を組み込んで,ノイズの多いサンプルとサンプルクリーンなサンプルをフィルタするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:30:19Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。