論文の概要: Data Leakage in Tabular Federated Learning
- arxiv url: http://arxiv.org/abs/2210.01785v1
- Date: Tue, 4 Oct 2022 17:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 15:51:56.364050
- Title: Data Leakage in Tabular Federated Learning
- Title(参考訳): タブラルフェデレーション学習におけるデータ漏洩
- Authors: Mark Vero, Mislav Balunovi\'c, Dimitar I. Dimitrov, Martin Vechev
- Abstract要約: 本研究では,TabLeakと呼ばれる表型データに対する包括的再構築攻撃を提案する。
TabLeakは, (i) 混合離散連続最適化問題を暗黙的に完全に連続したものに変換し, (ii) 復元品質の評価を成功させるエントロピー尺度である。
- 参考スコア(独自算出の注目度): 9.242965489146398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While federated learning (FL) promises to preserve privacy in distributed
training of deep learning models, recent work in the image and NLP domains
showed that training updates leak private data of participating clients. At the
same time, most high-stakes applications of FL (e.g., legal and financial) use
tabular data. Compared to the NLP and image domains, reconstruction of tabular
data poses several unique challenges: (i) categorical features introduce a
significantly more difficult mixed discrete-continuous optimization problem,
(ii) the mix of categorical and continuous features causes high variance in the
final reconstructions, and (iii) structured data makes it difficult for the
adversary to judge reconstruction quality. In this work, we tackle these
challenges and propose the first comprehensive reconstruction attack on tabular
data, called TabLeak. TabLeak is based on three key ingredients: (i) a softmax
structural prior, implicitly converting the mixed discrete-continuous
optimization problem into an easier fully continuous one, (ii) a way to reduce
the variance of our reconstructions through a pooled ensembling scheme
exploiting the structure of tabular data, and (iii) an entropy measure which
can successfully assess reconstruction quality. Our experimental evaluation
demonstrates the effectiveness of TabLeak, reaching a state-of-the-art on four
popular tabular datasets. For instance, on the Adult dataset, we improve attack
accuracy by 10% compared to the baseline on the practically relevant batch size
of 32 and further obtain non-trivial reconstructions for batch sizes as large
as 128. Our findings are important as they show that performing FL on tabular
data, which often poses high privacy risks, is highly vulnerable.
- Abstract(参考訳): 統合学習(FL)は、ディープラーニングモデルの分散トレーニングにおけるプライバシの保護を約束する一方で、画像とNLPドメインにおける最近の研究により、トレーニング更新が参加するクライアントのプライベートデータを漏洩していることが示されている。
同時に、FLの高額なアプリケーション(例:法的および財政的)は表形式のデータを使用する。
NLPや画像領域と比較して、表データの再構成にはいくつかの課題がある。
(i)カテゴリー的特徴は、より難しい混合離散連続最適化問題をもたらす。
(ii) カテゴリー的特徴と連続的特徴の混合は、最終再建において高いばらつきを生じさせ、
(iii)構造化データにより、敵が復元品質を判断することが困難となる。
本研究では,これらの課題に取り組み,TabLeakと呼ばれる表データの総合的再構築攻撃を提案する。
TabLeakは3つの重要な要素に基づいている。
i) 混合離散連続最適化問題をより簡単な完全連続的な問題に暗黙的に変換するソフトマックス構造体。
(ii)表データの構造を利用したプール型センシングスキームによる再構成のばらつきを低減する方法
(iii)復興品質を良好に評価できるエントロピー尺度。
実験により,TabLeakの有効性を実証し,4つの一般的な表付きデータセット上で最先端に到達した。
例えば、アダルトデータセットでは、実際の関連するバッチサイズ32のベースラインと比較して攻撃精度を10%向上させ、さらにバッチサイズ128までの非自明な再構成を得る。
我々の発見は、高いプライバシーリスクを伴う表データ上でのFLの実行が、非常に脆弱であることを示す上で重要である。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。
この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。
本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:43:59Z) - PriRoAgg: Achieving Robust Model Aggregation with Minimum Privacy Leakage for Federated Learning [49.916365792036636]
フェデレートラーニング(FL)は、大規模分散ユーザデータを活用する可能性から、最近大きな勢いを増している。
送信されたモデル更新は、センシティブなユーザ情報をリークする可能性があり、ローカルなトレーニングプロセスの集中的な制御の欠如は、モデル更新に対する悪意のある操作の影響を受けやすいグローバルモデルを残します。
我々は、Lagrange符号化計算と分散ゼロ知識証明を利用した汎用フレームワークPriRoAggを開発し、集約されたプライバシを満たすとともに、幅広いロバストな集約アルゴリズムを実行する。
論文 参考訳(メタデータ) (2024-07-12T03:18:08Z) - Transferable Adversarial Robustness for Categorical Data via Universal
Robust Embeddings [32.96913882055497]
堅牢性の欠如が詐欺検出、診断、レコメンデーターシステムなどの深刻なリスクをもたらす多くのシナリオがある。
本稿では,グラフデータに対して,逆向きに頑健な深層ネットワークを訓練する手法を提案する。
これらの埋め込みは、敵の訓練を必要とせずに、強化された木や無作為な森林に移動することができる。
論文 参考訳(メタデータ) (2023-06-06T23:24:02Z) - Beyond Individual Input for Deep Anomaly Detection on Tabular Data [0.0]
異常検出は、金融、医療、サイバーセキュリティなど、多くの領域において不可欠である。
私たちの知る限りでは、この機能機能とサンプルサンプル依存関係をうまく組み合わせる最初の作業です。
提案手法は,F1スコアとAUROCをそれぞれ2.4%,AUROCを1.2%上回り,最先端性能を実現している。
論文 参考訳(メタデータ) (2023-05-24T13:13:26Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Robust and Differentially Private Mean Estimation [40.323756738056616]
異なるプライバシーは、米国国勢調査から商用デバイスで収集されたデータまで、さまざまなアプリケーションで標準要件として浮上しています。
このようなデータベースの数は、複数のソースからのデータからなり、それらすべてが信頼できるわけではない。
これにより、既存のプライベート分析は、腐敗したデータを注入する敵による攻撃に弱い。
論文 参考訳(メタデータ) (2021-02-18T05:02:49Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。