論文の概要: Leakage of Dataset Properties in Multi-Party Machine Learning
- arxiv url: http://arxiv.org/abs/2006.07267v3
- Date: Thu, 17 Jun 2021 22:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 03:42:47.259278
- Title: Leakage of Dataset Properties in Multi-Party Machine Learning
- Title(参考訳): マルチパーティ機械学習におけるデータセット特性の漏洩
- Authors: Wanrong Zhang, Shruti Tople, Olga Ohrimenko
- Abstract要約: 複数パーティの計算は、当事者間でのグローバルなデータセット特性の漏洩を引き起こす可能性があることを示す。
好奇心のある当事者は、他の当事者のデータにおける機密属性の分布を高精度に推測することができる。
我々の攻撃は、異なるタイプのデータセットで集団レベルのプロパティをリークする可能性がある。
- 参考スコア(独自算出の注目度): 21.08787143548808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Secure multi-party machine learning allows several parties to build a model
on their pooled data to increase utility while not explicitly sharing data with
each other. We show that such multi-party computation can cause leakage of
global dataset properties between the parties even when parties obtain only
black-box access to the final model. In particular, a ``curious'' party can
infer the distribution of sensitive attributes in other parties' data with high
accuracy. This raises concerns regarding the confidentiality of properties
pertaining to the whole dataset as opposed to individual data records. We show
that our attack can leak population-level properties in datasets of different
types, including tabular, text, and graph data. To understand and measure the
source of leakage, we consider several models of correlation between a
sensitive attribute and the rest of the data. Using multiple machine learning
models, we show that leakage occurs even if the sensitive attribute is not
included in the training data and has a low correlation with other attributes
or the target variable.
- Abstract(参考訳): セキュアなマルチパーティ機械学習は、複数のパーティがプールデータ上にモデルを構築して、データを明示的に共有することなく、有用性を高めることを可能にする。
このようなマルチパーティ計算は,最終モデルへのブラックボックスアクセスのみを得た場合でも,各パーティ間のグローバルデータセットプロパティの漏洩を引き起こす可能性がある。
特に 'curious' パーティは、他のパーティのデータにおける機密属性の分布を高い精度で推測することができる。
これにより、個々のデータレコードとは対照的に、データセット全体に関連するプロパティの機密性に関する懸念が高まる。
我々の攻撃は、表、テキスト、グラフデータなど、異なるタイプのデータセットの集団レベルの特性を漏洩させる可能性がある。
漏洩源を把握・測定するために,機密属性と残りのデータとの相関モデルをいくつか検討する。
複数の機械学習モデルを用いて,センシティブな属性がトレーニングデータに含まれず,他の属性やターゲット変数との相関が低かった場合でも,リークが発生することを示す。
関連論文リスト
- Anno-incomplete Multi-dataset Detection [67.69438032767613]
我々は「不完全なマルチデータセット検出」という新しい問題を提案する。
複数の注釈付きデータセットで全ての対象カテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-08-29T03:58:21Z) - Quantifying Spuriousness of Biased Datasets Using Partial Information Decomposition [14.82261635235695]
純粋パターン(spurious pattern)とは、因果関係のないデータセットにおける2つ以上の変数間の数学的関連である。
本研究は,PID(Partial Information Decomposition)と呼ばれる数学的枠組みを用いて,データセット(スプリアス特徴とコア特徴の分割を含む)におけるスプリアス性の最初の情報理論的な定式化を提示する。
我々は、刺激的特徴と中核的特徴が他の対象変数について共有する結合情報内容、すなわちユニーク、冗長、シナジスティックな情報を分離する。
論文 参考訳(メタデータ) (2024-06-29T16:05:47Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - MaSS: Multi-attribute Selective Suppression [8.337285030303285]
本稿では,多属性選択抑制(Multi-Atribute Selective Suppression,MASS)を提案する。
MASSは2組のネットワーク間の対戦ゲームを通じてデータ修飾子を学習する。
本研究では,異なる領域の複数のデータセットを用いて提案手法の広範な評価を行った。
論文 参考訳(メタデータ) (2022-10-18T14:44:08Z) - Differentially Private Multi-Party Data Release for Linear Regression [40.66319371232736]
Differentially Private (DP) データリリースは、データ対象のプライバシを損なうことなくデータを広める、有望なテクニックである。
本稿では、異なる利害関係者が同じデータ対象グループに属する不整合な属性セットを所有するマルチパーティ設定に焦点を当てる。
提案手法は,データセットサイズが増大する最適(プライベートでない)解に収束することを示す。
論文 参考訳(メタデータ) (2022-06-16T08:32:17Z) - Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.866927712193416]
トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。
私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。
私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
論文 参考訳(メタデータ) (2022-03-31T18:06:28Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Attribute Privacy: Framework and Mechanisms [26.233612860653025]
本研究では、データ所有者が分析中にデータセット全体の機密性を明らかにすることに関心を持つ属性プライバシの研究を行う。
我々は,グローバル属性を保護する必要がある2つのケースにおいて,インパトリビュートプライバシを捕捉するための定義を提案する。
これらの設定の属性プライバシーを満足する2つの効率的なメカニズムと1つの非効率的なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-09-08T22:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。