論文の概要: How to Drill Into Silos: Creating a Free-to-Use Dataset of Data Subject Access Packages
- arxiv url: http://arxiv.org/abs/2407.04470v1
- Date: Fri, 5 Jul 2024 12:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:30:37.832005
- Title: How to Drill Into Silos: Creating a Free-to-Use Dataset of Data Subject Access Packages
- Title(参考訳): Silosへのドリルの方法 - データ対象アクセスパッケージのフリーユースデータセットの作成
- Authors: Nicola Leschke, Daniela Pöhn, Frank Pallas,
- Abstract要約: 欧州連合(EU)の一般データ保護規則は、個人データへのアクセス権を強化した。
コントローラが提供する被写体アクセス要求パッケージ(SARP)を実際に使用する可能性は非常に制限されている。
このデータセットは一般に提供され、将来、SARPの実用化に向けた新しいアプローチの研究および比較の出発点として機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The European Union's General Data Protection Regulation (GDPR) strengthened several rights for individuals (data subjects). One of these is the data subjects' right to access their personal data being collected by services (data controllers), complemented with a new right to data portability. Based on these, data controllers are obliged to provide respective data and allow data subjects to use them at their own discretion. However, the subjects' possibilities for actually using and harnessing said data are severely limited so far. Among other reasons, this can be attributed to a lack of research dedicated to the actual use of controller-provided subject access request packages (SARPs). To open up and facilitate such research, we outline a general, high-level method for generating, pre-processing, publishing, and finally using SARPs of different providers. Furthermore, we establish a realistic dataset comprising two users' SARPs from five services. This dataset is publicly provided and shall, in the future, serve as a starting and reference point for researching and comparing novel approaches for the practically viable use of SARPs.
- Abstract(参考訳): 欧州連合の一般データ保護規則(GDPR)は、個人(データ主体)に対するいくつかの権利を強化した。
ひとつは、データ主体がサービス(データコントローラ)によって収集された個人情報にアクセスする権利であり、データポータビリティに対する新しい権利を補完するものである。
これらに基づいて、データコントローラは、各データを提供し、データ対象が自身の判断で使用できるようにする義務を負う。
しかし, 実際にデータを利用したり活用したりする可能性は, 今のところ極めて限られている。
その他の理由としては、コントローラが提供する対象アクセス要求パッケージ(SARP)の実際の使用に関する研究が不足していることが挙げられる。
このような研究を開放し、促進するために、さまざまなプロバイダのSARPを生成し、前処理し、公開し、最終的に使用する一般的な高レベルな方法を概説する。
さらに,5つのサービスから2人のユーザのSARPからなる現実的なデータセットを構築した。
このデータセットは一般に提供され、将来、SARPの実用的利用のための新しいアプローチを研究・比較するための出発点および参照点として機能する。
関連論文リスト
- Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - CaPS: Collaborative and Private Synthetic Data Generation from Distributed Sources [5.898893619901382]
分散データホルダから合成データの協調的かつプライベートな生成のためのフレームワークを提案する。
我々は信頼されたアグリゲータをセキュアなマルチパーティ計算プロトコルに置き換え、差分プライバシー(DP)を介してプライバシを出力する。
MWEM+PGMおよびAIMの最先端選択測度生成アルゴリズムに対するアプローチの適用性とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2024-02-13T17:26:32Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Synthetic is all you need: removing the auxiliary data assumption for
membership inference attacks against synthetic data [9.061271587514215]
この仮定をどのように取り除くかを示し、MIAを合成データのみを用いて実行できるようにする。
その結果,MIAは実世界の2つのデータセットと2つの合成データジェネレータでまだ成功していることがわかった。
論文 参考訳(メタデータ) (2023-07-04T13:16:03Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Towards Generalizable Data Protection With Transferable Unlearnable
Examples [50.628011208660645]
本稿では、転送不可能な例を生成することによって、新しい一般化可能なデータ保護手法を提案する。
私たちの知る限りでは、これはデータ分散の観点からデータのプライバシを調べる最初のソリューションです。
論文 参考訳(メタデータ) (2023-05-18T04:17:01Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Don't Look at the Data! How Differential Privacy Reconfigures the
Practices of Data Science [0.0]
差別化プライバシ(DP)は,オープンアクセスとともにプライバシを提供する,有望な方法のひとつだ。
我々は、DPのエキスパートでない19人のデータ実践者とのインタビューを行う。
DPはセンシティブなデータセットへの広範なアクセスを提供すると約束しているが、データサイエンスワークフローのすべてのステージに課題も導入している。
論文 参考訳(メタデータ) (2023-02-23T04:28:14Z) - Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data [7.370727048591523]
関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。
既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。
本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-13T20:09:17Z) - Protecting Privacy and Transforming COVID-19 Case Surveillance Datasets
for Public Use [0.4462475518267084]
CDCは、個人レベルの未確認データを管轄区域から収集し、現在800万件以上の記録を保有している。
データ要素は、有用性、公開要求、およびプライバシーの影響に基づいて含まれた。
機密情報の再識別や暴露のリスクを低減するため、特定のフィールド値が抑制された。
論文 参考訳(メタデータ) (2021-01-13T14:24:20Z) - GDPR: When the Right to Access Personal Data Becomes a Threat [63.732639864601914]
個人データへのアクセス要求を行う300以上のデータコントローラについて検討する。
リクエストを処理したデータコントローラの50.4%が、ユーザを特定する手順に欠陥があることが分かりました。
望ましくない驚くべき結果によって、現在のデプロイメントでは、Webサービスのユーザのプライバシを実際に低下させています。
論文 参考訳(メタデータ) (2020-05-04T22:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。