論文の概要: Let's Measure the Elephant in the Room: Facilitating Personalized Automated Analysis of Privacy Policies at Scale
- arxiv url: http://arxiv.org/abs/2507.14214v1
- Date: Tue, 15 Jul 2025 20:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.769982
- Title: Let's Measure the Elephant in the Room: Facilitating Personalized Automated Analysis of Privacy Policies at Scale
- Title(参考訳): 部屋のエレファントを測ろう: 個人化によるプライバシーポリシーの大規模分析
- Authors: Rui Zhao, Vladyslav Melnychuk, Jun Zhao, Jesse Wright, Nigel Shadbolt,
- Abstract要約: PoliAnalyzerは、パーソナライズされたプライバシポリシ分析を支援するニューロシンボリックシステムである。
自然言語処理を使用して、ポリシーテキストからデータ使用慣行の形式的な表現を抽出する。
オフザシェルフのNLPツールを使用して、大規模にパーソナライズされたプライバシポリシの自動分析をサポートすることができる。
- 参考スコア(独自算出の注目度): 14.986181740022106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In modern times, people have numerous online accounts, but they rarely read the Terms of Service or Privacy Policy of those sites despite claiming otherwise. This paper introduces PoliAnalyzer, a neuro-symbolic system that assists users with personalized privacy policy analysis. PoliAnalyzer uses Natural Language Processing (NLP) to extract formal representations of data usage practices from policy texts. In favor of deterministic, logical inference is applied to compare user preferences with the formal privacy policy representation and produce a compliance report. To achieve this, we extend an existing formal Data Terms of Use policy language to model privacy policies as app policies and user preferences as data policies. In our evaluation using our enriched PolicyIE dataset curated by legal experts, PoliAnalyzer demonstrated high accuracy in identifying relevant data usage practices, achieving F1-score of 90-100% across most tasks. Additionally, we demonstrate how PoliAnalyzer can model diverse user data-sharing preferences, derived from prior research as 23 user profiles, and perform compliance analysis against the top 100 most-visited websites. This analysis revealed that, on average, 95.2% of a privacy policy's segments do not conflict with the analyzed user preferences, enabling users to concentrate on understanding the 4.8% (636 / 13205) that violates preferences, significantly reducing cognitive burden. Further, we identified common practices in privacy policies that violate user expectations - such as the sharing of location data with 3rd parties. This paper demonstrates that PoliAnalyzer can support automated personalized privacy policy analysis at scale using off-the-shelf NLP tools. This sheds light on a pathway to help individuals regain control over their data and encourage societal discussions on platform data practices to promote a fairer power dynamic.
- Abstract(参考訳): 現代では、多くのオンラインアカウントを持っているが、他の主張にもかかわらず、それらのサイトのサービス規約やプライバシポリシーを読むことはめったにない。
本稿では,パーソナライズされたプライバシポリシ分析を支援するニューロシンボリックシステムであるPooliAnalyzerを紹介する。
PoliAnalyzerは自然言語処理(NLP)を使用して、ポリシーテキストからデータ使用慣行の形式的な表現を抽出する。
決定論的には、ユーザの好みを正式なプライバシーポリシー表現と比較し、コンプライアンスレポートを作成するために論理推論を適用する。
これを実現するために、我々は、プライバシポリシをアプリポリシとして、ユーザの好みをデータポリシとしてモデル化するために、既存の公式なData Terms of Use Policy言語を拡張した。
PoliAnalyzerは、法の専門家が収集したリッチなPolyIEデータセットを用いて、関連するデータの使用方法を特定する上で高い精度を示し、ほとんどのタスクでF1スコアを90-100%達成しました。
さらに、PoliAnalyzerは、以前の研究から23のユーザプロファイルとして派生した多様なユーザデータ共有の好みをモデル化し、上位100のWebサイトに対してコンプライアンス分析を行うことができることを示す。
この分析により、プライバシーポリシーのセグメントの95.2%は分析されたユーザーの嗜好と矛盾せず、ユーザーは好みに反する4.8%(636/13205)の理解に集中でき、認知的負担を大幅に軽減できることがわかった。
さらに、サードパーティとの位置情報共有など、ユーザの期待に反するプライバシポリシの一般的なプラクティスを特定しました。
本稿では,PoliAnalyzerが市販のNLPツールを用いて,大規模にパーソナライズされたプライバシポリシの自動解析をサポートできることを実証する。
このことは、個人がデータのコントロールを取り戻すのを助け、プラットフォームデータプラクティスに関する社会的議論を奨励し、より公平なパワーダイナミクスを促進するための経路に光を当てている。
関連論文リスト
- PersonaBench: Evaluating AI Models on Understanding Personal Information through Accessing (Synthetic) Private User Data [76.21047984886273]
パーソナライゼーションは、AIアシスタント、特に個々のユーザーと連携するプライベートAIモデルのコンテキストにおいて重要である。
このようなデータのセンシティブな性質のため、AIモデルのユーザ理解能力を評価するためのデータセットは公開されていない。
多様なユーザプロファイルを作成する合成データ生成パイプラインと、人間の活動をシミュレートするプライベートドキュメントを導入する。
論文 参考訳(メタデータ) (2025-02-28T00:43:35Z) - Entailment-Driven Privacy Policy Classification with LLMs [3.564208334473993]
本稿では,プライバシーポリシーの段落をユーザが容易に理解できる意味のあるラベルに分類する枠組みを提案する。
私たちのフレームワークは、F1スコアを平均11.2%改善します。
論文 参考訳(メタデータ) (2024-09-25T05:07:05Z) - Collection, usage and privacy of mobility data in the enterprise and public administrations [55.2480439325792]
個人のプライバシーを守るためには、匿名化などのセキュリティ対策が必要である。
本研究では,現場における実践の洞察を得るために,専門家によるインタビューを行った。
我々は、一般的には最先端の差分プライバシー基準に準拠しない、使用中のプライバシー強化手法を調査した。
論文 参考訳(メタデータ) (2024-07-04T08:29:27Z) - Large Language Models: A New Approach for Privacy Policy Analysis at Scale [1.7570777893613145]
本研究は,大規模プライバシポリシから効果的かつ効率的にプライバシプラクティスを抽出する代替手段として,LLM(Large Language Models)の適用を提案する。
我々はChatGPTやLlama 2といった有名なLLMを活用し、プロンプト、パラメータ、モデルの最適設計に関するガイダンスを提供する。
評価では、ドメイン内のいくつかの有名なデータセットをベンチマークとして、その例外的な性能を評価し、F1スコアが93%を超えた。
論文 参考訳(メタデータ) (2024-05-31T15:12:33Z) - Automated Detection and Analysis of Data Practices Using A Real-World
Corpus [20.4572759138767]
プライバシポリシ内のデータプラクティスを,さまざまなレベルで詳細に識別し視覚化するための,自動アプローチを提案する。
提案手法は,データ実践記述とポリシー記述とを正確にマッチングし,ユーザへの簡易なプライバシ情報の提示を容易にする。
論文 参考訳(メタデータ) (2024-02-16T18:51:40Z) - PolicyGPT: Automated Analysis of Privacy Policies with Large Language
Models [41.969546784168905]
実際に使う場合、ユーザーは慎重に読むのではなく、Agreeボタンを直接クリックする傾向がある。
このプラクティスは、プライバシーの漏洩や法的問題のリスクにユーザをさらけ出す。
近年,ChatGPT や GPT-4 などの大規模言語モデル (LLM) が出現し,テキスト解析の新たな可能性が高まっている。
論文 参考訳(メタデータ) (2023-09-19T01:22:42Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文 参考訳(メタデータ) (2020-10-06T09:04:58Z) - PGLP: Customizable and Rigorous Location Privacy through Policy Graph [68.3736286350014]
我々はPGLPと呼ばれる新しい位置プライバシーの概念を提案し、カスタマイズ可能で厳格なプライバシー保証を備えたプライベートロケーションをリリースするためのリッチなインターフェースを提供する。
具体的には,ユーザの位置プライバシー要件を,表現的かつカスタマイズ可能なテキスト配置ポリシーグラフを用いて形式化する。
第3に、位置露光の検出、ポリシーグラフの修復、およびカスタマイズ可能な厳格な位置プライバシーを備えたプライベートな軌跡リリースをパイプライン化する、プライベートな位置トレースリリースフレームワークを設計する。
論文 参考訳(メタデータ) (2020-05-04T04:25:59Z) - A Comparative Study of Sequence Classification Models for Privacy Policy
Coverage Analysis [0.0]
プライバシーポリシーは、ウェブサイトがユーザーのデータを収集、使用、配布する方法を記述する法的文書である。
私たちのソリューションは、さまざまな古典的な機械学習とディープラーニング技術を使用して、Webサイトのプライバシポリシのカバレッジ分析をユーザに提供することです。
論文 参考訳(メタデータ) (2020-02-12T21:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。