論文の概要: Privacy Policies over Time: Curation and Analysis of a Million-Document
Dataset
- arxiv url: http://arxiv.org/abs/2008.09159v4
- Date: Tue, 20 Jul 2021 19:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 12:06:03.118077
- Title: Privacy Policies over Time: Curation and Analysis of a Million-Document
Dataset
- Title(参考訳): プライバシーポリシー:数百万のドキュメントデータセットのキュレーションと分析
- Authors: Ryan Amos, Gunes Acar, Eli Lucherini, Mihir Kshirsagar, Arvind
Narayanan, Jonathan Mayer
- Abstract要約: 我々は,インターネットアーカイブのWayback Machineからアーカイブされたプライバシーポリシーを発見し,ダウンロードし,抽出するクローラを開発した。
私たちは、20年以上にわたって、13万以上の異なるウェブサイトにまたがる、1,071,488の英語のプライバシーポリシーのデータセットをキュレートしました。
我々のデータによると、サードパーティーのウェブサイトの自己規制は停滞しており、サードパーティの自己規制は増加しているが、オンライン広告取引団体が支配している。
- 参考スコア(独自算出の注目度): 6.060757543617328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated analysis of privacy policies has proved a fruitful research
direction, with developments such as automated policy summarization, question
answering systems, and compliance detection. Prior research has been limited to
analysis of privacy policies from a single point in time or from short spans of
time, as researchers did not have access to a large-scale, longitudinal,
curated dataset. To address this gap, we developed a crawler that discovers,
downloads, and extracts archived privacy policies from the Internet Archive's
Wayback Machine. Using the crawler and following a series of validation and
quality control steps, we curated a dataset of 1,071,488 English language
privacy policies, spanning over two decades and over 130,000 distinct websites.
Our analyses of the data paint a troubling picture of the transparency and
accessibility of privacy policies. By comparing the occurrence of
tracking-related terminology in our dataset to prior web privacy measurements,
we find that privacy policies have consistently failed to disclose the presence
of common tracking technologies and third parties. We also find that over the
last twenty years privacy policies have become even more difficult to read,
doubling in length and increasing a full grade in the median reading level. Our
data indicate that self-regulation for first-party websites has stagnated,
while self-regulation for third parties has increased but is dominated by
online advertising trade associations. Finally, we contribute to the literature
on privacy regulation by demonstrating the historic impact of the GDPR on
privacy policies.
- Abstract(参考訳): プライバシーポリシーの自動分析は、自動ポリシー要約、質問応答システム、コンプライアンス検出などの開発によって、実りある研究の方向性を証明している。
以前の研究は、大規模で縦長のキュレーションされたデータセットにアクセスできなかったため、単一の時点から、あるいは短時間から、プライバシポリシの分析に限定されていた。
このギャップに対処するため、我々は、インターネットアーカイブのWayback Machineからアーカイブされたプライバシーポリシーを発見し、ダウンロードし、抽出するクローラーを開発した。
crawlerを使って、検証と品質管理の一連のステップに従って、私たちは、英語のプライバシーポリシー1,071,488のデータセットをキュレートしました。
当社のデータ分析は、プライバシーポリシーの透明性とアクセシビリティに関する厄介なイメージを示しています。
当社のデータセットにおけるトラッキング関連用語の発生とWebプライバシの事前測定を比較することで,一般的なトラッキング技術やサードパーティの存在を常に開示できていないことが分かる。
また、過去20年間でプライバシーポリシーの読み取りがさらに難しくなり、長さが2倍になり、中央値の読み込みレベルが完全に向上していることもわかりました。
当社のデータによると、サードパーティのウェブサイトの自己規制は停滞しており、サードパーティの自己規制は増加しているが、オンライン広告取引協会が支配している。
最後に、プライバシーポリシーに対するGDPRの歴史的影響を示すことで、プライバシー規制に関する文献に貢献する。
関連論文リスト
- PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - A Survey of Privacy-Preserving Model Explanations: Privacy Risks, Attacks, and Countermeasures [50.987594546912725]
AIのプライバシと説明可能性に関する研究が増えているにもかかわらず、プライバシを保存するモデル説明にはほとんど注意が払われていない。
本稿では,モデル説明に対するプライバシ攻撃とその対策に関する,最初の徹底的な調査を紹介する。
論文 参考訳(メタデータ) (2024-03-31T12:44:48Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - A Survey on Privacy in Graph Neural Networks: Attacks, Preservation, and
Applications [76.88662943995641]
グラフニューラルネットワーク(GNN)は、グラフ構造化データを扱う能力のため、大きな注目を集めている。
この問題に対処するため、研究者らはプライバシー保護のGNNの開発を開始した。
この進歩にもかかわらず、攻撃の包括的概要と、グラフドメインのプライバシを保存するためのテクニックが欠如している。
論文 参考訳(メタデータ) (2023-08-31T00:31:08Z) - More Data Types More Problems: A Temporal Analysis of Complexity,
Stability, and Sensitivity in Privacy Policies [0.0]
データブローカーとデータプロセッサは、消費者データを収集し、購入し、販売することで利益を得る、数十億ドル規模の産業の一部である。
しかし、データ収集業界には、どのような種類のデータが収集、使用、販売されているかを理解するのが難しくなる透明性がほとんどありません。
論文 参考訳(メタデータ) (2023-02-17T15:21:24Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - How to keep text private? A systematic review of deep learning methods
for privacy-preserving natural language processing [0.38073142980732994]
記事は2016年から2020年にかけて発行されたプライバシー保護NLPに関する60以上の方法を体系的にレビューしている。
本稿では,既存の手法を3つのカテゴリに分類する新しい分類法を提案する。
我々は、データトレーサビリティ、オーバーヘッドデータセットサイズ、埋め込みにおける人間のバイアスの頻度に関するプライバシー保護NLPのオープンな課題について論じる。
論文 参考訳(メタデータ) (2022-05-20T11:29:44Z) - Privacy Policies Across the Ages: Content and Readability of Privacy
Policies 1996--2021 [1.5229257192293197]
透明性研究、機械学習、自然言語処理の手法を用いて、プライバシーポリシーの25年の歴史を分析した。
1996年から2021年までの大規模なプライバシーポリシーの長期コーパスを収集する。
我々の結果は、特に新しい規制が施行された後、政策が長く読みにくくなっていることを示している。
論文 参考訳(メタデータ) (2022-01-21T15:13:02Z) - AI-enabled Automation for Completeness Checking of Privacy Policies [7.707284039078785]
ヨーロッパでは、プライバシーポリシーは一般データ保護規則に準拠する。
本稿では,プライバシーポリシーの完全性チェックのためのAIベースの自動化を提案する。
論文 参考訳(メタデータ) (2021-06-10T12:10:51Z) - PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文 参考訳(メタデータ) (2020-10-06T09:04:58Z) - Privacy at Scale: Introducing the PrivaSeer Corpus of Web Privacy Policies [13.09699710197036]
PrivaSeerは、100万以上の英語ウェブサイトのプライバシーポリシーのコーパスです。
本稿では,可読性テスト,文書類似性,キーフレーズ抽出の結果を示し,トピックモデリングによるコーパスの探索を行った。
論文 参考訳(メタデータ) (2020-04-23T13:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。