論文の概要: A Survey on Unlearnable Data
- arxiv url: http://arxiv.org/abs/2503.23536v2
- Date: Tue, 01 Apr 2025 16:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 13:43:58.222749
- Title: A Survey on Unlearnable Data
- Title(参考訳): 未学習データに関する調査
- Authors: Jiahao Li, Yiqiang Chen, Yunbing Xing, Yang Gu, Xiangyuan Lan,
- Abstract要約: Unlearnable Data(ULD)は、機械学習モデルが特定のデータから意味のあるパターンを学ぶのを防ぐ革新的な防御技術として登場した。
我々は、異なるUDLアプローチを比較し、比較し、その強み、制限、および非学習性、不受容性、効率、堅牢性に関連するトレードオフを分析します。
本稿では, モデル劣化に伴う摂動不感のバランスや, ULD生成の計算複雑性など, 重要な課題について論じる。
- 参考スコア(独自算出の注目度): 27.329292606400685
- License:
- Abstract: Unlearnable data (ULD) has emerged as an innovative defense technique to prevent machine learning models from learning meaningful patterns from specific data, thus protecting data privacy and security. By introducing perturbations to the training data, ULD degrades model performance, making it difficult for unauthorized models to extract useful representations. Despite the growing significance of ULD, existing surveys predominantly focus on related fields, such as adversarial attacks and machine unlearning, with little attention given to ULD as an independent area of study. This survey fills that gap by offering a comprehensive review of ULD, examining unlearnable data generation methods, public benchmarks, evaluation metrics, theoretical foundations and practical applications. We compare and contrast different ULD approaches, analyzing their strengths, limitations, and trade-offs related to unlearnability, imperceptibility, efficiency and robustness. Moreover, we discuss key challenges, such as balancing perturbation imperceptibility with model degradation and the computational complexity of ULD generation. Finally, we highlight promising future research directions to advance the effectiveness and applicability of ULD, underscoring its potential to become a crucial tool in the evolving landscape of data protection in machine learning.
- Abstract(参考訳): Unlearnable Data(ULD)は、機械学習モデルが特定のデータから意味のあるパターンを学習することを防ぐ革新的な防御技術として出現し、データのプライバシとセキュリティを保護する。
トレーニングデータに摂動を導入することで、UDDはモデル性能を劣化させ、未承認モデルが有用な表現を抽出することが困難になる。
ULDの重要性が高まりつつあるにもかかわらず、既存の調査は主に敵攻撃やマシンアンラーニングなどの関連分野に焦点を当てており、独立した研究分野としてUDDにはほとんど関心が向けられていない。
この調査は、UDDの包括的なレビュー、未学習のデータ生成方法、公開ベンチマーク、評価指標、理論的基礎、実践的応用について調べることによって、このギャップを埋める。
我々は、異なるUDLアプローチを比較し、比較し、その強み、制限、および非学習性、不受容性、効率、堅牢性に関連するトレードオフを分析します。
さらに、モデル劣化と摂動不感のバランスをとることや、UDD生成の計算複雑性など、重要な課題についても論じる。
最後に、ULDの有効性と適用性を高めるための将来的な研究の方向性を強調し、機械学習におけるデータ保護の進化に欠かせないツールになる可能性を強調した。
関連論文リスト
- Streamlined Federated Unlearning: Unite as One to Be Highly Efficient [12.467630082668254]
近年,「忘れられる権利」の制定は,連邦学習(FL)に新たなプライバシー要件を課している。
本研究では, モデル性能を劣化することなく保持データに保存しつつ, 対象データの影響を効果的に除去することを目的とした, 合理化アンラーニング手法を提案する。
論文 参考訳(メタデータ) (2024-11-28T12:52:48Z) - Silver Linings in the Shadows: Harnessing Membership Inference for Machine Unlearning [7.557226714828334]
ニューラルネットワークから特定のデータサンプルの影響を除去する新しい学習機構を提案する。
この目的を達成するために、我々は、ターゲットモデルの重みやアクティベーション値からプライバシーに敏感な情報を排除するための、新しい損失関数を構築した。
本研究の結果は,未学習の有効性とレイテンシ,および主課題の忠実度の観点から,我々のアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-07-01T00:20:26Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Federated Learning driven Large Language Models for Swarm Intelligence: A Survey [2.769238399659845]
Federated Learning (FL)は、大規模言語モデル(LLM)をトレーニングするための魅力的なフレームワークを提供する
私たちは機械学習に重点を置いています。これは、忘れられる権利のようなプライバシー規則に従う上で重要な側面です。
摂動技術やモデル分解,漸進学習など,効果的なアンラーニングを可能にするさまざまな戦略を探求する。
論文 参考訳(メタデータ) (2024-06-14T08:40:58Z) - PairCFR: Enhancing Model Training on Paired Counterfactually Augmented Data through Contrastive Learning [49.60634126342945]
Counterfactually Augmented Data (CAD)は、既存のデータサンプルのラベルを他のクラスに戻すのに、最小限かつ十分な修正を適用することで、新しいデータサンプルを作成する。
近年の研究では、CADを用いたトレーニングが、他の重要な文脈情報を無視しながら、モデルが修正機能に過度にフォーカスする可能性があることが示されている。
我々は、対実的手がかりの学習に加えて、グローバルな特徴アライメントを促進するために、対照的な学習を採用する。
論文 参考訳(メタデータ) (2024-06-09T07:29:55Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Re-thinking Data Availablity Attacks Against Deep Neural Networks [53.64624167867274]
本稿では、未学習例の概念を再検討し、既存のロバストな誤り最小化ノイズが不正確な最適化目標であることを示す。
本稿では,計算時間要件の低減による保護性能の向上を図った新しい最適化パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:03:51Z) - Self-Supervised Learning for Data Scarcity in a Fatigue Damage
Prognostic Problem [0.0]
自己監督学習(Self-Supervised Learning)は、教師なし学習アプローチのサブカテゴリである。
本稿では,未ラベルセンサデータを用いた自己学習型DLモデルの有効性について検討する。
その結果, 自己教師付き事前学習モデルでは, 下流RUL予測タスクにおいて, 非事前学習モデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-20T06:45:32Z) - Local Intrinsic Dimensionality Signals Adversarial Perturbations [28.328973408891834]
局所次元(Local dimensionality, LID)は、各データポイントを記述するのに必要な潜伏変数の最小数を記述する局所計量である。
本稿では、摂動データポイントのLID値に対する下界と上界を導出し、特に下界は摂動の大きさと正の相関を持つことを示す。
論文 参考訳(メタデータ) (2021-09-24T08:29:50Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。