論文の概要: A Certified Unlearning Approach without Access to Source Data
- arxiv url: http://arxiv.org/abs/2506.06486v1
- Date: Fri, 06 Jun 2025 19:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.293818
- Title: A Certified Unlearning Approach without Access to Source Data
- Title(参考訳): ソースデータへのアクセスを伴わない認定未学習アプローチ
- Authors: Umit Yigit Basaran, Sk Miraj Ahmed, Amit Roy-Chowdhury, Basak Guler,
- Abstract要約: 有効なデータ除去を実現するための認定アンラーニングフレームワークを提案する。
提案手法では,ソースデータの統計特性を近似したサロゲートデータセットを用いる。
その結果,プライバシに敏感な設定におけるアプローチの有効性と信頼性が示された。
- 参考スコア(独自算出の注目度): 4.585544474674649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing adoption of data privacy regulations, the ability to erase private or copyrighted information from trained models has become a crucial requirement. Traditional unlearning methods often assume access to the complete training dataset, which is unrealistic in scenarios where the source data is no longer available. To address this challenge, we propose a certified unlearning framework that enables effective data removal \final{without access to the original training data samples}. Our approach utilizes a surrogate dataset that approximates the statistical properties of the source data, allowing for controlled noise scaling based on the statistical distance between the two. \updated{While our theoretical guarantees assume knowledge of the exact statistical distance, practical implementations typically approximate this distance, resulting in potentially weaker but still meaningful privacy guarantees.} This ensures strong guarantees on the model's behavior post-unlearning while maintaining its overall utility. We establish theoretical bounds, introduce practical noise calibration techniques, and validate our method through extensive experiments on both synthetic and real-world datasets. The results demonstrate the effectiveness and reliability of our approach in privacy-sensitive settings.
- Abstract(参考訳): データプライバシ規則の採用の増加に伴い、トレーニングされたモデルからプライベートまたは著作権のある情報を削除できることが、重要な要件となっている。
従来のアンラーニング手法では、ソースデータがもはや利用できないシナリオでは非現実的な、完全なトレーニングデータセットへのアクセスを前提とすることが多い。
この課題に対処するため,本研究では,既存のトレーニングデータサンプルへのアクセスを必要とせずに,効果的なデータ削除を可能にする,認定されたアンラーニングフレームワークを提案する。
提案手法では, 音源データの統計的特性を近似したサロゲートデータセットを用いて, 両者間の統計的距離に基づいて, 制御された雑音のスケーリングを可能にする。
我々の理論的保証は正確な統計的距離の知識を前提としていますが、実践的な実装は一般的にこの距離を近似し、潜在的に弱いが、それでも意味のあるプライバシー保証をもたらします。
これは、全体的なユーティリティを維持しながら、学習後のモデルの振る舞いを確実に保証します。
我々は理論的境界を確立し、実用的なノイズキャリブレーション手法を導入し、合成と実世界の両方のデータセットに関する広範な実験を通してその手法を検証する。
その結果,プライバシに敏感な設定におけるアプローチの有効性と信頼性が示された。
関連論文リスト
- Privacy-Preserved Automated Scoring using Federated Learning for Educational Research [1.2556373621040728]
本稿では,教育評価の自動評価のための統合学習(FL)フレームワークを提案する。
我々は,2つの最先端FL手法と集中学習ベースラインに対して,我々のモデルをベンチマークする。
その結果,本モデルが最も精度が高い(94.5%)ことが示唆された。
論文 参考訳(メタデータ) (2025-03-12T19:06:25Z) - Source-Free Domain-Invariant Performance Prediction [68.39031800809553]
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。
オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。
提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
論文 参考訳(メタデータ) (2024-08-05T03:18:58Z) - Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - Label-Agnostic Forgetting: A Supervision-Free Unlearning in Deep Models [7.742594744641462]
機械学習の目的は、よく訓練されたモデルで残りのデータセットのデータを保存しながら、忘れられたデータから派生した情報を削除することである。
本研究では,アンラーニングプロセス中にラベルを必要とせずに,教師なしのアンラーニングアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-31T00:29:00Z) - Online Performance Estimation with Unlabeled Data: A Bayesian Application of the Hui-Walter Paradigm [0.0]
我々は、伝統的に疫学や医学に応用されたHui-Walterパラダイムを機械学習の分野に適用する。
根拠のないシナリオでは、偽陽性率、偽陰性率、先行といった重要なパフォーマンス指標を推定する。
オンラインデータを扱うためのこのパラダイムを拡張し、動的データ環境の新しい可能性を広げます。
論文 参考訳(メタデータ) (2024-01-17T17:46:10Z) - Self-training via Metric Learning for Source-Free Domain Adaptation of Semantic Segmentation [3.1460691683829825]
教師なしのドメイン適応手法は、事前訓練されたソースドメインモデルとラベルなしのターゲットドメインデータを用いて、ターゲットドメインのモデルをトレーニングすることを目的としている。
従来の手法では、通常擬似ラベルによる自己学習が用いられており、予測信頼度に基づいてしきい値付けされることが多い。
本稿では,教師ネットワークからの全ての予測を用いて,学生ネットワークを訓練する平均教師モデルを導入することによって,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-08T12:20:35Z) - Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain
Adaptation [87.60688582088194]
新規な自己監督雑音ラベル学習法を提案する。
本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2021-02-23T10:51:45Z) - Fair Densities via Boosting the Sufficient Statistics of Exponential
Families [72.34223801798422]
フェアネスのためのデータ前処理にブースティングアルゴリズムを導入する。
私たちのアプローチは、最小限の公平性を確保しながら、より良いデータフィッティングへとシフトします。
実世界のデータに結果の質を示す実験結果が提示される。
論文 参考訳(メタデータ) (2020-12-01T00:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。