論文の概要: TabLeak: Tabular Data Leakage in Federated Learning
- arxiv url: http://arxiv.org/abs/2210.01785v2
- Date: Fri, 7 Jul 2023 09:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 16:04:13.215088
- Title: TabLeak: Tabular Data Leakage in Federated Learning
- Title(参考訳): TabLeak: フェデレーションラーニングにおけるタブラルデータ漏洩
- Authors: Mark Vero, Mislav Balunovi\'c, Dimitar I. Dimitrov, Martin Vechev
- Abstract要約: TabLeakは、表データに対する最初の包括的な再構築攻撃である。
我々は、FedSGDおよびFedAvgトレーニングプロトコルの4つのデータセットに対してTabLeakを評価する。
128の大規模バッチサイズであっても、90%の精度で大量のプライベートデータを抽出する。
- 参考スコア(独自算出の注目度): 9.242965489146398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While federated learning (FL) promises to preserve privacy, recent works in
the image and text domains have shown that training updates leak private client
data. However, most high-stakes applications of FL (e.g., in healthcare and
finance) use tabular data, where the risk of data leakage has not yet been
explored. A successful attack for tabular data must address two key challenges
unique to the domain: (i) obtaining a solution to a high-variance mixed
discrete-continuous optimization problem, and (ii) enabling human assessment of
the reconstruction as unlike for image and text data, direct human inspection
is not possible. In this work we address these challenges and propose TabLeak,
the first comprehensive reconstruction attack on tabular data. TabLeak is based
on two key contributions: (i) a method which leverages a softmax relaxation and
pooled ensembling to solve the optimization problem, and (ii) an entropy-based
uncertainty quantification scheme to enable human assessment. We evaluate
TabLeak on four tabular datasets for both FedSGD and FedAvg training protocols,
and show that it successfully breaks several settings previously deemed safe.
For instance, we extract large subsets of private data at >90% accuracy even at
the large batch size of 128. Our findings demonstrate that current high-stakes
tabular FL is excessively vulnerable to leakage attacks.
- Abstract(参考訳): federated learning(fl)はプライバシの保護を約束しているが、画像とテキストドメインの最近の研究から、トレーニングアップデートがプライベートクライアントデータを漏洩していることが示されている。
しかしながら、fl(ヘルスケアやファイナンスなど)の高リスクアプリケーションの多くは表データを使用しており、データ漏洩のリスクはまだ検討されていない。
表データに対する攻撃は、ドメイン固有の2つの重要な課題に対処する必要がある。
(i)分散離散連続最適化問題に対する解を求めること、及び
二 画像やテキストデータと異なり、復元の人的評価を可能にするため、直接の人的検査は不可能である。
本稿では,これらの課題に対処し,表データに対する最初の包括的再構成攻撃であるtableakを提案する。
TabLeakは2つの主要なコントリビューションに基づいています。
(i)最適化問題を解決するためにソフトマックス緩和とプール化センセーブを利用する方法
(ii)人間評価を可能にするエントロピーに基づく不確実性定量化手法。
我々は、fesgdおよびfedavgトレーニングプロトコルの4つの表型データセットでtableakを評価し、以前安全と考えられていたいくつかの設定をうまく壊したことを示す。
例えば、大きなバッチサイズが128である場合でも、90%以上の精度でプライベートデータの大きなサブセットを抽出する。
以上の結果より,現在の高吸収性表在性FLは漏洩攻撃に対して過度に脆弱であることが明らかとなった。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。
この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。
本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:43:59Z) - PriRoAgg: Achieving Robust Model Aggregation with Minimum Privacy Leakage for Federated Learning [49.916365792036636]
フェデレートラーニング(FL)は、大規模分散ユーザデータを活用する可能性から、最近大きな勢いを増している。
送信されたモデル更新は、センシティブなユーザ情報をリークする可能性があり、ローカルなトレーニングプロセスの集中的な制御の欠如は、モデル更新に対する悪意のある操作の影響を受けやすいグローバルモデルを残します。
我々は、Lagrange符号化計算と分散ゼロ知識証明を利用した汎用フレームワークPriRoAggを開発し、集約されたプライバシを満たすとともに、幅広いロバストな集約アルゴリズムを実行する。
論文 参考訳(メタデータ) (2024-07-12T03:18:08Z) - Transferable Adversarial Robustness for Categorical Data via Universal
Robust Embeddings [32.96913882055497]
堅牢性の欠如が詐欺検出、診断、レコメンデーターシステムなどの深刻なリスクをもたらす多くのシナリオがある。
本稿では,グラフデータに対して,逆向きに頑健な深層ネットワークを訓練する手法を提案する。
これらの埋め込みは、敵の訓練を必要とせずに、強化された木や無作為な森林に移動することができる。
論文 参考訳(メタデータ) (2023-06-06T23:24:02Z) - Beyond Individual Input for Deep Anomaly Detection on Tabular Data [0.0]
異常検出は、金融、医療、サイバーセキュリティなど、多くの領域において不可欠である。
私たちの知る限りでは、この機能機能とサンプルサンプル依存関係をうまく組み合わせる最初の作業です。
提案手法は,F1スコアとAUROCをそれぞれ2.4%,AUROCを1.2%上回り,最先端性能を実現している。
論文 参考訳(メタデータ) (2023-05-24T13:13:26Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Robust and Differentially Private Mean Estimation [40.323756738056616]
異なるプライバシーは、米国国勢調査から商用デバイスで収集されたデータまで、さまざまなアプリケーションで標準要件として浮上しています。
このようなデータベースの数は、複数のソースからのデータからなり、それらすべてが信頼できるわけではない。
これにより、既存のプライベート分析は、腐敗したデータを注入する敵による攻撃に弱い。
論文 参考訳(メタデータ) (2021-02-18T05:02:49Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。