論文の概要: Scalable Data Classification for Security and Privacy
- arxiv url: http://arxiv.org/abs/2006.14109v5
- Date: Mon, 6 Jul 2020 20:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 04:34:31.680799
- Title: Scalable Data Classification for Security and Privacy
- Title(参考訳): セキュリティとプライバシのためのスケーラブルなデータ分類
- Authors: Paulo Tanaka, Sameet Sapra, Nikolay Laptev
- Abstract要約: 本稿では,Facebook内のセンシティブなセマンティックタイプを大規模に検出するために構築されたエンドツーエンドシステムについて述べる。
記述されたシステムは、さまざまなプライバシクラスで平均F2スコアの0.9以上を達成している。
- 参考スコア(独自算出の注目度): 0.06445605125467573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content based data classification is an open challenge. Traditional Data Loss
Prevention (DLP)-like systems solve this problem by fingerprinting the data in
question and monitoring endpoints for the fingerprinted data. With a large
number of constantly changing data assets in Facebook, this approach is both
not scalable and ineffective in discovering what data is where. This paper is
about an end-to-end system built to detect sensitive semantic types within
Facebook at scale and enforce data retention and access controls automatically.
The approach described here is our first end-to-end privacy system that
attempts to solve this problem by incorporating data signals, machine learning,
and traditional fingerprinting techniques to map out and classify all data
within Facebook. The described system is in production achieving a 0.9+ average
F2 scores across various privacy classes while handling a large number of data
assets across dozens of data stores.
- Abstract(参考訳): コンテンツベースのデータ分類は、オープンチャレンジです。
従来のデータ損失防止(DLP)のようなシステムは、問題のデータをフィンガープリントし、指紋データに対するエンドポイントを監視することでこの問題を解決する。
Facebookのデータアセットが常に変化しているため、このアプローチはスケーラブルではなく、データがどこにあるかを見つけるのに効果がない。
本稿は,facebook 内のセンシティブなセマンティクスタイプを大規模に検出し,データ保持とアクセス制御を自動的に実施するためのエンドツーエンドシステムについて述べる。
ここで説明したアプローチは、Facebook内のすべてのデータをマップアウトして分類するために、データ信号、機械学習、従来のフィンガープリント技術を取り入れることで、この問題を解決する最初のエンドツーエンドプライバシシステムです。
このシステムでは、さまざまなプライバシクラスの平均F2スコアを0.9以上達成し、数十のデータストアにわたる大量のデータアセットを処理する。
関連論文リスト
- Fingerprinting and Tracing Shadows: The Development and Impact of Browser Fingerprinting on Digital Privacy [55.2480439325792]
ブラウザのフィンガープリントは、クッキーのような従来の方法なしでオンラインでユーザーを特定し、追跡するテクニックとして成長している。
本稿では, 各種指紋認証技術について概説し, 収集データのエントロピーと特異性を解析する。
論文 参考訳(メタデータ) (2024-11-18T20:32:31Z) - FT-PrivacyScore: Personalized Privacy Scoring Service for Machine Learning Participation [4.772368796656325]
実際には、制御されたデータアクセスは、多くの産業や研究環境でデータプライバシを保護する主要な方法である。
我々は,FT-PrivacyScoreのプロトタイプを開発し,モデル微調整作業に参加する際のプライバシーリスクを効率よく定量的に推定できることを実証した。
論文 参考訳(メタデータ) (2024-10-30T02:41:26Z) - Footprints of Data in a Classifier Model: The Privacy Issues and Their Mitigation through Data Obfuscation [0.9208007322096533]
トレーニングデータのフットプリントを 予測モデルに埋め込むことは
テストデータとトレーニングデータのパフォーマンス品質の違いは、モデルをトレーニングしたデータの受動的識別を引き起こす。
この研究は、データフットプリントから生じる脆弱性に対処することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-02T13:56:37Z) - When Graph Convolution Meets Double Attention: Online Privacy Disclosure Detection with Multi-Label Text Classification [6.700420953065072]
影響を受ける人々やオンラインプラットフォームに警告する上で、このような望ましくないプライバシー開示を検出することが重要です。
本稿では,多ラベルテキスト分類問題としてプライバシ開示検出をモデル化する。
オンラインプライバシ開示を検出するMLTC分類器を構築するために,新たなプライバシ開示検出モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T15:25:17Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Privacy Side Channels in Machine Learning Systems [87.53240071195168]
プライバシサイドチャネルは、システムレベルのコンポーネントを利用してプライベート情報を抽出する攻撃である。
例えば、差分プライベートなトレーニングを適用する前にトレーニングデータを重複させることで、保証可能なプライバシ保証を完全に無効にするサイドチャネルが生成されることを示す。
さらに,学習データセットに含まれる秘密鍵を抽出するために,言語モデルを学習データ再生からブロックするシステムを利用することを示す。
論文 参考訳(メタデータ) (2023-09-11T16:49:05Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - A Survey on Differential Privacy with Machine Learning and Future
Outlook [0.0]
差分プライバシーは、あらゆる攻撃や脆弱性から機械学習モデルを保護するために使用される。
本稿では,2つのカテゴリに分類される差分プライベート機械学習アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-11-19T14:20:53Z) - BeeTrace: A Unified Platform for Secure Contact Tracing that Breaks Data
Silos [73.84437456144994]
接触追跡は、新型コロナウイルスなどの感染症の拡散を制御する重要な方法である。
現在のソリューションでは、ビジネスデータベースや個々のデジタルデバイスに格納された大量のデータを利用できません。
データサイロを破り、プライバシーの目標を保証するために最先端の暗号化プロトコルをデプロイする統合プラットフォームであるBeeTraceを提案する。
論文 参考訳(メタデータ) (2020-07-05T10:33:45Z) - Security and Privacy Preserving Deep Learning [2.322461721824713]
ディープラーニングに必要な膨大なデータ収集は、明らかにプライバシーの問題を提示している。
写真や音声録音などの、個人的かつ高感度なデータは、収集する企業によって無期限に保持される。
深層ニューラルネットワークは、トレーニングデータに関する情報を記憶するさまざまな推論攻撃の影響を受けやすい。
論文 参考訳(メタデータ) (2020-06-23T01:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。