論文の概要: WaKA: Data Attribution using K-Nearest Neighbors and Membership Privacy Principles
- arxiv url: http://arxiv.org/abs/2411.01357v3
- Date: Tue, 10 Jun 2025 23:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 04:22:26.032757
- Title: WaKA: Data Attribution using K-Nearest Neighbors and Membership Privacy Principles
- Title(参考訳): WaKA: K-Nearest Neighborsとメンバシッププライバシ原則によるデータ属性
- Authors: Patrick Mesana, Clément Bénesse, Hadrien Lautraite, Gilles Caporossi, Sébastien Gambs,
- Abstract要約: WaKAは、個々のデータポイントのモデル損失分布への寄与を測定する新しい属性法である。
WaKAは汎用的であり、プライバシーリスクを評価するために、MIA(メンバシップ推論攻撃)として後部攻撃として使用できる。
不均衡なデータセット上でのデータ最小化タスク(削除や追加)において、WAKAはShapley Valuesよりも堅牢性が高いことを示す。
- 参考スコア(独自算出の注目度): 3.437769176989657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce WaKA (Wasserstein K-nearest-neighbors Attribution), a novel attribution method that leverages principles from the LiRA (Likelihood Ratio Attack) framework and k-nearest neighbors classifiers (k-NN). WaKA efficiently measures the contribution of individual data points to the model's loss distribution, analyzing every possible k-NN that can be constructed using the training set, without requiring to sample subsets of the training set. WaKA is versatile and can be used a posteriori as a membership inference attack (MIA) to assess privacy risks or a priori for privacy influence measurement and data valuation. Thus, WaKA can be seen as bridging the gap between data attribution and membership inference attack (MIA) by providing a unified framework to distinguish between a data point's value and its privacy risk. For instance, we have shown that self-attribution values are more strongly correlated with the attack success rate than the contribution of a point to the model generalization. WaKA's different usage were also evaluated across diverse real-world datasets, demonstrating performance very close to LiRA when used as an MIA on k-NN classifiers, but with greater computational efficiency. Additionally, WaKA shows greater robustness than Shapley Values for data minimization tasks (removal or addition) on imbalanced datasets.
- Abstract(参考訳): 本稿では、LiRA(Likelihood Ratio Attack)フレームワークとk-nearest neighbors Classifiers(k-NN)の原理を利用する新しい属性手法であるWaKA(Wasserstein K-nearest-neighbors Attribution)を紹介する。
WaKAは、トレーニングセットのサブセットをサンプリングすることなく、トレーニングセットを使用して構築できるあらゆる可能なk-NNを分析し、モデルの損失分布に対する個々のデータポイントの寄与を効率的に測定する。
WaKAは汎用的であり、プライバシのリスク評価や、プライバシの影響測定とデータ評価の優先順位を評価するために、メンバシップ推論アタック(MIA)として後部構造を使用することができる。
このように、WaKAはデータポイントの価値とプライバシリスクを区別する統一されたフレームワークを提供することによって、データ属性とメンバシップ推論攻撃(MIA)のギャップを埋めると見なすことができる。
例えば、モデル一般化へのポイントの寄与よりも、自己帰属値は攻撃成功率と強く相関していることが示されている。
WaKAの異なる使用法は、様々な実世界のデータセットで評価され、k-NN分類器上でMIAとして使用される場合、LiRAに非常に近い性能を示したが、計算効率は向上した。
さらに、WaKAは、不均衡なデータセット上でのデータ最小化タスク(削除または追加)に対して、Shapley Valuesよりも堅牢性が高い。
関連論文リスト
- Generalization is not a universal guarantee: Estimating similarity to training data with an ensemble out-of-distribution metric [0.09363323206192666]
機械学習モデルの新しいデータへの一般化の失敗は、AIシステムの信頼性を制限する中核的な問題である。
本稿では、一般化可能性推定(SAGE)のための教師付きオートエンコーダを構築することにより、データの類似性を評価するための標準化されたアプローチを提案する。
モデル自体のトレーニングやテストデータセットのデータに適用しても,SAGEスコアのフィルタリング後にアウト・オブ・ボックスモデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2025-02-22T19:21:50Z) - DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
ReCaLL (Relative Conditional Log-Likelihood) という新しいメンバーシップ推論攻撃(MIA)を提案する。
ReCaLLは、ターゲットデータポイントを非メンバーコンテキストでプレフィックスする場合、条件付きログライクな状態の相対的変化を調べる。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning [8.808963973962278]
クラスごとの例やクラスの数など、プライバシの脆弱性とデータセットプロパティの関係を分析します。
シャドーモデルから算出したスコア分布と統計量から,MIA単位の脆弱性を導出する。
論文 参考訳(メタデータ) (2024-02-07T14:23:01Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Generalizing Differentially Private Decentralized Deep Learning with Multi-Agent Consensus [11.414398732656839]
本稿では,分散ディープラーニングに差分プライバシーを組み込んだフレームワークを提案する。
本稿では,このフレームワークから派生したアルゴリズムの収束保証を証明し,その実用性を示す。
論文 参考訳(メタデータ) (2023-06-24T07:46:00Z) - Client-specific Property Inference against Secure Aggregation in
Federated Learning [52.8564467292226]
フェデレートラーニングは、さまざまな参加者の間で共通のモデルを協調的に訓練するための、広く使われているパラダイムとなっている。
多くの攻撃は、メンバーシップ、資産、または参加者データの完全な再構築のような機密情報を推測することは依然として可能であることを示した。
単純な線形モデルでは、集約されたモデル更新からクライアント固有のプロパティを効果的にキャプチャできることが示される。
論文 参考訳(メタデータ) (2023-03-07T14:11:01Z) - Out-of-Distribution Detection with Hilbert-Schmidt Independence
Optimization [114.43504951058796]
異常検出タスクはAIの安全性において重要な役割を担っている。
ディープニューラルネットワーク分類器は通常、アウト・オブ・ディストリビューション(OOD)の入力を、信頼性の高いイン・ディストリビューション・クラスに誤って分類する傾向がある。
我々は,OOD検出タスクにおいて実用的かつ理論的に有効な代替確率論的パラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-26T15:59:55Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Unlearning Protected User Attributes in Recommendations with Adversarial
Training [10.268369743620159]
協調フィルタリングアルゴリズムは、特定の人口統計やユーザーの保護された情報を含む、基礎となる消費パターンをキャプチャする。
これらの符号化バイアスは、様々な階層のサブグループに提供されるコンテンツのさらなる分離に向けたレコメンデーションシステムの決定に影響を与える可能性がある。
本研究では,RSアルゴリズムの学習的相互作用表現から,ユーザの特定の保護された情報を除去する可能性と課題について検討する。
論文 参考訳(メタデータ) (2022-06-09T13:36:28Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - SHAPr: An Efficient and Versatile Membership Privacy Risk Metric for
Machine Learning [13.952586561595473]
機械学習(ML)モデルのトレーニングに使用されるデータは、センシティブである。
メンバーシップ推論攻撃(MIA)は、特定のデータレコードがMLモデルのトレーニングに使用されたかどうかを判断し、メンバーシップのプライバシを侵害するリスクを負う。
本稿では,Shapley値を用いて個別のトレーニングデータ記録の記憶を定量化するSHAPrを提案する。
論文 参考訳(メタデータ) (2021-12-04T03:45:49Z) - An Extension of Fano's Inequality for Characterizing Model
Susceptibility to Membership Inference Attacks [28.366183028100057]
深層ニューラルネットワークにおけるメンバシップ推論攻撃の成功確率は,入力とアクティベーションの相互情報を用いてバウンドできることを示す。
これにより、メンバーシップ推論攻撃に対するDNNモデルの感受性を測定するために、相互情報を使用することが可能である。
論文 参考訳(メタデータ) (2020-09-17T06:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。