論文の概要: Privacy at Scale: Introducing the PrivaSeer Corpus of Web Privacy Policies
- arxiv url: http://arxiv.org/abs/2004.11131v2
- Date: Sat, 30 Mar 2024 12:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 16:23:34.977449
- Title: Privacy at Scale: Introducing the PrivaSeer Corpus of Web Privacy Policies
- Title(参考訳): 大規模プライバシ - PrivaSeer Corpus of Web Privacy Policiesの導入
- Authors: Mukund Srinath, Shomir Wilson, C. Lee Giles,
- Abstract要約: PrivaSeerは、100万以上の英語ウェブサイトのプライバシーポリシーのコーパスです。
本稿では,可読性テスト,文書類似性,キーフレーズ抽出の結果を示し,トピックモデリングによるコーパスの探索を行った。
- 参考スコア(独自算出の注目度): 13.09699710197036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Organisations disclose their privacy practices by posting privacy policies on their website. Even though users often care about their digital privacy, they often don't read privacy policies since they require a significant investment in time and effort. Although natural language processing can help in privacy policy understanding, there has been a lack of large scale privacy policy corpora that could be used to analyse, understand, and simplify privacy policies. Thus, we create PrivaSeer, a corpus of over one million English language website privacy policies, which is significantly larger than any previously available corpus. We design a corpus creation pipeline which consists of crawling the web followed by filtering documents using language detection, document classification, duplicate and near-duplication removal, and content extraction. We investigate the composition of the corpus and show results from readability tests, document similarity, keyphrase extraction, and explored the corpus through topic modeling.
- Abstract(参考訳): 組織は自身のウェブサイトにプライバシポリシーを投稿することで、プライバシのプラクティスを開示する。
ユーザはデジタルプライバシを気にすることが多いが、時間と労力に大きな投資を必要とするため、プライバシポリシを読まないことが多い。
自然言語処理はプライバシーポリシーの理解に役立つが、プライバシーポリシーの分析、理解、簡素化に使用できる大規模なプライバシーポリシーコーパスが不足している。
そこで、PrivaSeerという、100万以上の英語ウェブサイトのプライバシーポリシーのコーパスを作成しました。
ウェブをクローリングした後、言語検出、文書分類、重複・近重複除去、コンテンツ抽出を用いて文書をフィルタリングするコーパス生成パイプラインを設計する。
本研究では,コーパスの構成を調査し,可読性試験,文書類似性,キーフレーズ抽出,トピックモデリングによるコーパスの探索を行った。
関連論文リスト
- Differential Privacy Overview and Fundamental Techniques [63.0409690498569]
この章は、"Differential Privacy in Artificial Intelligence: From Theory to Practice"という本の一部である。
まず、データのプライバシ保護のためのさまざまな試みについて説明し、その失敗の場所と理由を強調した。
次に、プライバシ保護データ分析の領域を構成する重要なアクター、タスク、スコープを定義する。
論文 参考訳(メタデータ) (2024-11-07T13:52:11Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Privacy Checklist: Privacy Violation Detection Grounding on Contextual Integrity Theory [43.12744258781724]
単純なパターンマッチングではなく、推論問題としてプライバシー問題を定式化します。
我々は、社会的アイデンティティ、プライベート属性、および既存のプライバシー規則を網羅する、最初の包括的なチェックリストを開発する。
論文 参考訳(メタデータ) (2024-08-19T14:48:04Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - PLUE: Language Understanding Evaluation Benchmark for Privacy Policies
in English [77.79102359580702]
プライバシポリシ言語理解評価ベンチマークは,プライバシポリシ言語理解を評価するマルチタスクベンチマークである。
また、プライバシポリシの大規模なコーパスを収集し、プライバシポリシドメイン固有の言語モデル事前トレーニングを可能にします。
ドメイン固有の連続的な事前トレーニングは、すべてのタスクでパフォーマンスを改善することを実証します。
論文 参考訳(メタデータ) (2022-12-20T05:58:32Z) - Algorithms with More Granular Differential Privacy Guarantees [65.3684804101664]
我々は、属性ごとのプライバシー保証を定量化できる部分微分プライバシー(DP)について検討する。
本研究では,複数の基本データ分析および学習タスクについて検討し,属性ごとのプライバシパラメータが個人全体のプライバシーパラメータよりも小さい設計アルゴリズムについて検討する。
論文 参考訳(メタデータ) (2022-09-08T22:43:50Z) - Privacy Policies Across the Ages: Content and Readability of Privacy
Policies 1996--2021 [1.5229257192293197]
透明性研究、機械学習、自然言語処理の手法を用いて、プライバシーポリシーの25年の歴史を分析した。
1996年から2021年までの大規模なプライバシーポリシーの長期コーパスを収集する。
我々の結果は、特に新しい規制が施行された後、政策が長く読みにくくなっていることを示している。
論文 参考訳(メタデータ) (2022-01-21T15:13:02Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z) - Privacy Policies over Time: Curation and Analysis of a Million-Document
Dataset [6.060757543617328]
我々は,インターネットアーカイブのWayback Machineからアーカイブされたプライバシーポリシーを発見し,ダウンロードし,抽出するクローラを開発した。
私たちは、20年以上にわたって、13万以上の異なるウェブサイトにまたがる、1,071,488の英語のプライバシーポリシーのデータセットをキュレートしました。
我々のデータによると、サードパーティーのウェブサイトの自己規制は停滞しており、サードパーティの自己規制は増加しているが、オンライン広告取引団体が支配している。
論文 参考訳(メタデータ) (2020-08-20T19:00:37Z) - APPCorp: A Corpus for Android Privacy Policy Document Structure Analysis [16.618995752616296]
この作業では,166ドルのプライバシポリシを含む,手作業によるラベル付きコーパスを作成します。
注釈付きコーパスのアノテーションプロセスと詳細を報告する。
データコーパスを4ドルの文書分類モデルでベンチマークし、結果を徹底的に分析し、研究委員会がコーパスを使用するための課題と機会について議論する。
論文 参考訳(メタデータ) (2020-05-14T13:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。