論文の概要: Scalable Data Classification for Security and Privacy
- arxiv url: http://arxiv.org/abs/2006.14109v5
- Date: Mon, 6 Jul 2020 20:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 04:34:31.680799
- Title: Scalable Data Classification for Security and Privacy
- Title(参考訳): セキュリティとプライバシのためのスケーラブルなデータ分類
- Authors: Paulo Tanaka, Sameet Sapra, Nikolay Laptev
- Abstract要約: 本稿では,Facebook内のセンシティブなセマンティックタイプを大規模に検出するために構築されたエンドツーエンドシステムについて述べる。
記述されたシステムは、さまざまなプライバシクラスで平均F2スコアの0.9以上を達成している。
- 参考スコア(独自算出の注目度): 0.06445605125467573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content based data classification is an open challenge. Traditional Data Loss
Prevention (DLP)-like systems solve this problem by fingerprinting the data in
question and monitoring endpoints for the fingerprinted data. With a large
number of constantly changing data assets in Facebook, this approach is both
not scalable and ineffective in discovering what data is where. This paper is
about an end-to-end system built to detect sensitive semantic types within
Facebook at scale and enforce data retention and access controls automatically.
The approach described here is our first end-to-end privacy system that
attempts to solve this problem by incorporating data signals, machine learning,
and traditional fingerprinting techniques to map out and classify all data
within Facebook. The described system is in production achieving a 0.9+ average
F2 scores across various privacy classes while handling a large number of data
assets across dozens of data stores.
- Abstract(参考訳): コンテンツベースのデータ分類は、オープンチャレンジです。
従来のデータ損失防止(DLP)のようなシステムは、問題のデータをフィンガープリントし、指紋データに対するエンドポイントを監視することでこの問題を解決する。
Facebookのデータアセットが常に変化しているため、このアプローチはスケーラブルではなく、データがどこにあるかを見つけるのに効果がない。
本稿は,facebook 内のセンシティブなセマンティクスタイプを大規模に検出し,データ保持とアクセス制御を自動的に実施するためのエンドツーエンドシステムについて述べる。
ここで説明したアプローチは、Facebook内のすべてのデータをマップアウトして分類するために、データ信号、機械学習、従来のフィンガープリント技術を取り入れることで、この問題を解決する最初のエンドツーエンドプライバシシステムです。
このシステムでは、さまざまなプライバシクラスの平均F2スコアを0.9以上達成し、数十のデータストアにわたる大量のデータアセットを処理する。
関連論文リスト
- A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - DBFed: Debiasing Federated Learning Framework based on
Domain-Independent [15.639705798326213]
本稿では,ドメイン非依存に基づくデバイアス学習フレームワークを提案する。これは,クライアント側トレーニング中に機密属性を明示的に符号化することで,モデルバイアスを緩和する。
本稿では,3つの実データセットについて実験を行い,精度と公平性の5つの評価指標を用いてモデルの効果を定量的に評価する。
論文 参考訳(メタデータ) (2023-07-10T14:39:57Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - A Survey on Differential Privacy with Machine Learning and Future
Outlook [0.0]
差分プライバシーは、あらゆる攻撃や脆弱性から機械学習モデルを保護するために使用される。
本稿では,2つのカテゴリに分類される差分プライベート機械学習アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-11-19T14:20:53Z) - Blinder: End-to-end Privacy Protection in Sensing Systems via
Personalized Federated Learning [5.803565897482636]
本稿では、分散化されたデータに基づいて訓練されたセンサデータ匿名化モデルを提案し、データユーティリティとプライバシの間に望ましいトレードオフを打つ。
我々の匿名化モデルはBlinderと呼ばれ、変分オートエンコーダと1つまたは複数の識別器ネットワークを逆行的に訓練した。
論文 参考訳(メタデータ) (2022-09-24T16:22:43Z) - Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets [53.866927712193416]
トレーニングデータセットを有害にすることができる敵が、このデータセットでトレーニングされたモデルに、他の当事者のプライベート詳細を漏洩させる可能性があることを示す。
私たちの攻撃は、メンバーシップ推論、属性推論、データ抽出に効果的です。
私たちの結果は、機械学習のためのマルチパーティプロトコルにおける暗号化プライバシ保証の関連性に疑問を投げかけました。
論文 参考訳(メタデータ) (2022-03-31T18:06:28Z) - BeeTrace: A Unified Platform for Secure Contact Tracing that Breaks Data
Silos [73.84437456144994]
接触追跡は、新型コロナウイルスなどの感染症の拡散を制御する重要な方法である。
現在のソリューションでは、ビジネスデータベースや個々のデジタルデバイスに格納された大量のデータを利用できません。
データサイロを破り、プライバシーの目標を保証するために最先端の暗号化プロトコルをデプロイする統合プラットフォームであるBeeTraceを提案する。
論文 参考訳(メタデータ) (2020-07-05T10:33:45Z) - Security and Privacy Preserving Deep Learning [2.322461721824713]
ディープラーニングに必要な膨大なデータ収集は、明らかにプライバシーの問題を提示している。
写真や音声録音などの、個人的かつ高感度なデータは、収集する企業によって無期限に保持される。
深層ニューラルネットワークは、トレーニングデータに関する情報を記憶するさまざまな推論攻撃の影響を受けやすい。
論文 参考訳(メタデータ) (2020-06-23T01:53:46Z) - Federated Face Presentation Attack Detection [93.25058425356694]
顔提示攻撃検出(fPAD)は、現代の顔認識パイプラインにおいて重要な役割を果たす。
本稿では,FedPAD(Federated Face Presentation Detection)フレームワークを提案する。
FedPADは、データプライバシを保持しながら、異なるデータオーナで利用可能な豊富なfPAD情報を同時に活用する。
論文 参考訳(メタデータ) (2020-05-29T15:56:01Z) - PrivGen: Preserving Privacy of Sequences Through Data Generation [14.579475552088688]
シークエンシャルデータは、研究の基盤として機能し、プロセスの改善につながる可能性がある。
このようなデータへのアクセスと利用は、通常、ユーザーのプライバシーを侵害する懸念のために制限されるか、まったく許可されない。
そこで我々はPrivGenを提案する。PrivGenは、ソースデータのパターンと特徴を保守するデータを生成する革新的な方法である。
論文 参考訳(メタデータ) (2020-02-23T05:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。