論文の概要: Data Leakage in Tabular Federated Learning
- arxiv url: http://arxiv.org/abs/2210.01785v1
- Date: Tue, 4 Oct 2022 17:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 15:51:56.364050
- Title: Data Leakage in Tabular Federated Learning
- Title(参考訳): タブラルフェデレーション学習におけるデータ漏洩
- Authors: Mark Vero, Mislav Balunovi\'c, Dimitar I. Dimitrov, Martin Vechev
- Abstract要約: 本研究では,TabLeakと呼ばれる表型データに対する包括的再構築攻撃を提案する。
TabLeakは, (i) 混合離散連続最適化問題を暗黙的に完全に連続したものに変換し, (ii) 復元品質の評価を成功させるエントロピー尺度である。
- 参考スコア(独自算出の注目度): 9.242965489146398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While federated learning (FL) promises to preserve privacy in distributed
training of deep learning models, recent work in the image and NLP domains
showed that training updates leak private data of participating clients. At the
same time, most high-stakes applications of FL (e.g., legal and financial) use
tabular data. Compared to the NLP and image domains, reconstruction of tabular
data poses several unique challenges: (i) categorical features introduce a
significantly more difficult mixed discrete-continuous optimization problem,
(ii) the mix of categorical and continuous features causes high variance in the
final reconstructions, and (iii) structured data makes it difficult for the
adversary to judge reconstruction quality. In this work, we tackle these
challenges and propose the first comprehensive reconstruction attack on tabular
data, called TabLeak. TabLeak is based on three key ingredients: (i) a softmax
structural prior, implicitly converting the mixed discrete-continuous
optimization problem into an easier fully continuous one, (ii) a way to reduce
the variance of our reconstructions through a pooled ensembling scheme
exploiting the structure of tabular data, and (iii) an entropy measure which
can successfully assess reconstruction quality. Our experimental evaluation
demonstrates the effectiveness of TabLeak, reaching a state-of-the-art on four
popular tabular datasets. For instance, on the Adult dataset, we improve attack
accuracy by 10% compared to the baseline on the practically relevant batch size
of 32 and further obtain non-trivial reconstructions for batch sizes as large
as 128. Our findings are important as they show that performing FL on tabular
data, which often poses high privacy risks, is highly vulnerable.
- Abstract(参考訳): 統合学習(FL)は、ディープラーニングモデルの分散トレーニングにおけるプライバシの保護を約束する一方で、画像とNLPドメインにおける最近の研究により、トレーニング更新が参加するクライアントのプライベートデータを漏洩していることが示されている。
同時に、FLの高額なアプリケーション(例:法的および財政的)は表形式のデータを使用する。
NLPや画像領域と比較して、表データの再構成にはいくつかの課題がある。
(i)カテゴリー的特徴は、より難しい混合離散連続最適化問題をもたらす。
(ii) カテゴリー的特徴と連続的特徴の混合は、最終再建において高いばらつきを生じさせ、
(iii)構造化データにより、敵が復元品質を判断することが困難となる。
本研究では,これらの課題に取り組み,TabLeakと呼ばれる表データの総合的再構築攻撃を提案する。
TabLeakは3つの重要な要素に基づいている。
i) 混合離散連続最適化問題をより簡単な完全連続的な問題に暗黙的に変換するソフトマックス構造体。
(ii)表データの構造を利用したプール型センシングスキームによる再構成のばらつきを低減する方法
(iii)復興品質を良好に評価できるエントロピー尺度。
実験により,TabLeakの有効性を実証し,4つの一般的な表付きデータセット上で最先端に到達した。
例えば、アダルトデータセットでは、実際の関連するバッチサイズ32のベースラインと比較して攻撃精度を10%向上させ、さらにバッチサイズ128までの非自明な再構成を得る。
我々の発見は、高いプライバシーリスクを伴う表データ上でのFLの実行が、非常に脆弱であることを示す上で重要である。
関連論文リスト
- Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Transferable Adversarial Robustness for Categorical Data via Universal
Robust Embeddings [32.96913882055497]
堅牢性の欠如が詐欺検出、診断、レコメンデーターシステムなどの深刻なリスクをもたらす多くのシナリオがある。
本稿では,グラフデータに対して,逆向きに頑健な深層ネットワークを訓練する手法を提案する。
これらの埋め込みは、敵の訓練を必要とせずに、強化された木や無作為な森林に移動することができる。
論文 参考訳(メタデータ) (2023-06-06T23:24:02Z) - Beyond Individual Input for Deep Anomaly Detection on Tabular Data [0.0]
異常検出は、金融、医療、サイバーセキュリティなど、多くの領域において不可欠である。
私たちの知る限りでは、この機能機能とサンプルサンプル依存関係をうまく組み合わせる最初の作業です。
提案手法は,F1スコアとAUROCをそれぞれ2.4%,AUROCを1.2%上回り,最先端性能を実現している。
論文 参考訳(メタデータ) (2023-05-24T13:13:26Z) - Fed-TDA: Federated Tabular Data Augmentation on Non-IID Data [7.5178093283247165]
非独立で同一に分散した(非IID)データは、連邦学習(FL)における鍵となる課題である
非IID問題を解決するためのフェデレーション生成モデルや生データ共有戦略に基づく既存のデータ拡張手法は、依然として性能の低下、プライバシー保護の懸念、通信オーバーヘッドの増大に悩まされている。
簡単な統計データを用いてデータ拡張のためのデータを合成するFed-TDAを提案する。
論文 参考訳(メタデータ) (2022-11-22T02:17:15Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Robust and Differentially Private Mean Estimation [40.323756738056616]
異なるプライバシーは、米国国勢調査から商用デバイスで収集されたデータまで、さまざまなアプリケーションで標準要件として浮上しています。
このようなデータベースの数は、複数のソースからのデータからなり、それらすべてが信頼できるわけではない。
これにより、既存のプライベート分析は、腐敗したデータを注入する敵による攻撃に弱い。
論文 参考訳(メタデータ) (2021-02-18T05:02:49Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Stratified cross-validation for unbiased and privacy-preserving
federated learning [0.0]
本稿では、重複レコードの繰り返し問題に焦点をあて、もし適切に扱わなければ、モデルの性能を過度に最適化的に見積もる可能性がある。
本稿では,階層化手法を活用して,フェデレート学習環境におけるデータ漏洩を防止する検証手法である階層化クロスバリデーションを紹介し,議論する。
論文 参考訳(メタデータ) (2020-01-22T15:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。