論文の概要: Leave-one-out Distinguishability in Machine Learning
- arxiv url: http://arxiv.org/abs/2309.17310v4
- Date: Wed, 17 Apr 2024 06:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:40:10.935911
- Title: Leave-one-out Distinguishability in Machine Learning
- Title(参考訳): 機械学習におけるLeave-one-out Distinguishability
- Authors: Jiayuan Ye, Anastasia Borovykh, Soufiane Hayou, Reza Shokri,
- Abstract要約: 本稿では、機械学習アルゴリズムの出力分布の変化を、トレーニングセットにいくつかのデータポイントを含めると定量化する分析フレームワークを提案する。
これは、データ**記憶*と情報*記憶*と、機械学習におけるデータポイントのトレーニング**影響*とを測る鍵となります。
- 参考スコア(独自算出の注目度): 23.475469946428717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce an analytical framework to quantify the changes in a machine learning algorithm's output distribution following the inclusion of a few data points in its training set, a notion we define as leave-one-out distinguishability (LOOD). This is key to measuring data **memorization** and information **leakage** as well as the **influence** of training data points in machine learning. We illustrate how our method broadens and refines existing empirical measures of memorization and privacy risks associated with training data. We use Gaussian processes to model the randomness of machine learning algorithms, and validate LOOD with extensive empirical analysis of leakage using membership inference attacks. Our analytical framework enables us to investigate the causes of leakage and where the leakage is high. For example, we analyze the influence of activation functions, on data memorization. Additionally, our method allows us to identify queries that disclose the most information about the training data in the leave-one-out setting. We illustrate how optimal queries can be used for accurate **reconstruction** of training data.
- Abstract(参考訳): 本稿では,機械学習アルゴリズムの出力分布の変化を,トレーニングセットにいくつかのデータポイントを含めることで定量化する分析フレームワークを提案する。
これは、データ**記憶*と情報*記憶*と、機械学習におけるデータポイントのトレーニング**影響*とを測る鍵となります。
本手法は,トレーニングデータに関連する記憶とプライバシーのリスクに関する実証的な尺度をいかに拡張し,洗練するかを説明する。
我々はガウス過程を用いて機械学習アルゴリズムのランダム性をモデル化し、メンバーシップ推論攻撃による漏洩の広範な経験的分析によりLOODを検証する。
解析的枠組みにより, 漏洩の原因と漏洩の程度を調査できる。
例えば、アクティベーション関数がデータ記憶に与える影響を分析する。
さらに,本手法では,トレーニングデータに関する最も多くの情報を公開するクエリを,アウト・ワン・アウト・セッティングで特定することができる。
トレーニングデータの正確な**再構成**に最適なクエリをどのように使用できるかを説明する。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Robust Machine Learning by Transforming and Augmenting Imperfect
Training Data [6.928276018602774]
この論文は、現代の機械学習のいくつかのデータ感度を探求する。
まず、トレーニングデータで測定された事前の人間の識別をMLが符号化するのを防ぐ方法について論じる。
次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。
論文 参考訳(メタデータ) (2023-12-19T20:49:28Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Forget Unlearning: Towards True Data-Deletion in Machine Learning [18.656957502454592]
アンラーニングはデータ削除と同等ではなく、「忘れられる権利」を保証していないことを示す。
本稿では,オンライン環境での精度,計算効率,セキュアなデータ削除機械学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-17T10:06:11Z) - Enhanced Membership Inference Attacks against Machine Learning Models [9.26208227402571]
メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークする個人情報の定量化に使用される。
我々は,AUCスコアを高い精度で達成できる新たな攻撃アルゴリズムを導き,その性能に影響を及ぼすさまざまな要因を強調した。
我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用することができる。
論文 参考訳(メタデータ) (2021-11-18T13:31:22Z) - Bounding Information Leakage in Machine Learning [26.64770573405079]
本稿では,情報漏洩の基本的な境界について検討する。
最悪の会員推論攻撃の成功率を特定し、拘束します。
感度の高い属性とモデルパラメータの間の相互情報の境界を導出する。
論文 参考訳(メタデータ) (2021-05-09T08:49:14Z) - Information Theoretic Meta Learning with Gaussian Processes [74.54485310507336]
情報理論の概念,すなわち相互情報と情報のボトルネックを用いてメタ学習を定式化する。
相互情報に対する変分近似を用いることで、メタ学習のための汎用的かつトラクタブルな枠組みを導出する。
論文 参考訳(メタデータ) (2020-09-07T16:47:30Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Modelling and Quantifying Membership Information Leakage in Machine
Learning [14.095523601311374]
我々は、ディープニューラルネットワークのような複雑なモデルが、メンバーシップ推論攻撃の影響を受けやすいことを示す。
本稿では,Gaussian $(epsilon,delta)$-differentially-private additive noiseを使用する場合,メンバシップ情報漏洩の量は$mathcalO(log1/2(delta-1)epsilon-1)$で減少することを示す。
論文 参考訳(メタデータ) (2020-01-29T00:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。