論文の概要: PolicyGPT: Automated Analysis of Privacy Policies with Large Language
Models
- arxiv url: http://arxiv.org/abs/2309.10238v1
- Date: Tue, 19 Sep 2023 01:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 16:58:55.303307
- Title: PolicyGPT: Automated Analysis of Privacy Policies with Large Language
Models
- Title(参考訳): policygpt: 大きな言語モデルによるプライバシーポリシーの自動分析
- Authors: Chenhao Tang, Zhengliang Liu, Chong Ma, Zihao Wu, Yiwei Li, Wei Liu,
Dajiang Zhu, Quanzheng Li, Xiang Li, Tianming Liu, Lei Fan
- Abstract要約: 実際に使う場合、ユーザーは慎重に読むのではなく、Agreeボタンを直接クリックする傾向がある。
このプラクティスは、プライバシーの漏洩や法的問題のリスクにユーザをさらけ出す。
近年,ChatGPT や GPT-4 などの大規模言語モデル (LLM) が出現し,テキスト解析の新たな可能性が高まっている。
- 参考スコア(独自算出の注目度): 41.969546784168905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Privacy policies serve as the primary conduit through which online service
providers inform users about their data collection and usage procedures.
However, in a bid to be comprehensive and mitigate legal risks, these policy
documents are often quite verbose. In practical use, users tend to click the
Agree button directly rather than reading them carefully. This practice exposes
users to risks of privacy leakage and legal issues. Recently, the advent of
Large Language Models (LLM) such as ChatGPT and GPT-4 has opened new
possibilities for text analysis, especially for lengthy documents like privacy
policies. In this study, we investigate a privacy policy text analysis
framework PolicyGPT based on the LLM. This framework was tested using two
datasets. The first dataset comprises of privacy policies from 115 websites,
which were meticulously annotated by legal experts, categorizing each segment
into one of 10 classes. The second dataset consists of privacy policies from
304 popular mobile applications, with each sentence manually annotated and
classified into one of another 10 categories. Under zero-shot learning
conditions, PolicyGPT demonstrated robust performance. For the first dataset,
it achieved an accuracy rate of 97%, while for the second dataset, it attained
an 87% accuracy rate, surpassing that of the baseline machine learning and
neural network models.
- Abstract(参考訳): プライバシーポリシーは、オンラインサービスプロバイダがユーザーのデータ収集と利用手順をユーザーに知らせる主要な手段である。
しかし、包括的かつ法的リスクを軽減するために、これらの政策文書は、しばしば非常に冗長である。
実際に使う場合、ユーザーは慎重に読むのではなく、Agreeボタンを直接クリックする傾向がある。
このプラクティスは、プライバシーの漏洩や法的問題のリスクにユーザをさらけ出す。
近年,ChatGPT や GPT-4 などの大規模言語モデル (LLM) の出現により,特にプライバシポリシなどの長文ドキュメントにおいて,テキスト解析の新たな可能性が高まっている。
本研究では,llmに基づくプライバシーポリシーテキスト分析フレームワークpolicygptについて検討する。
このフレームワークは2つのデータセットを使ってテストされた。
最初のデータセットは、115のウェブサイトからのプライバシーポリシーで構成されており、法律の専門家によって慎重に注釈付けされ、各セグメントを10のクラスに分類した。
第2のデータセットは,304のモバイルアプリケーションからのプライバシポリシで構成されており,各文を手作業で注釈付けし,他の10のカテゴリに分類している。
ゼロショット学習条件下では、PolicyGPTは堅牢な性能を示した。
第1データセットの精度は97%、第2データセットの精度は87%に達し、ベースライン機械学習とニューラルネットワークモデルの精度を上回った。
関連論文リスト
- Entailment-Driven Privacy Policy Classification with LLMs [3.564208334473993]
本稿では,プライバシーポリシーの段落をユーザが容易に理解できる意味のあるラベルに分類する枠組みを提案する。
私たちのフレームワークは、F1スコアを平均11.2%改善します。
論文 参考訳(メタデータ) (2024-09-25T05:07:05Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Are LLM-based methods good enough for detecting unfair terms of service? [67.49487557224415]
大規模言語モデル(LLM)は、長いテキストベースの文書を解析するのに適している。
プライバシーポリシーの集合に対して個別に適用された12の質問からなるデータセットを構築します。
いくつかのオープンソースモデルは、いくつかの商用モデルと比較して高い精度を提供できる。
論文 参考訳(メタデータ) (2024-08-24T09:26:59Z) - {A New Hope}: Contextual Privacy Policies for Mobile Applications and An
Approach Toward Automated Generation [19.578130824867596]
コンテキストプライバシポリシ(CPP)の目的は、プライバシポリシを簡潔なスニペットに断片化し、アプリケーションのグラフィカルユーザインターフェース(GUI)内の対応するコンテキスト内でのみ表示することである。
本稿では,モバイルアプリケーションシナリオでCPPを初めて定式化し,モバイルアプリケーション用のCPPを自動生成するSeePrivacyという新しいマルチモーダルフレームワークを提案する。
人間の評価では、抽出されたプライバシーポリシーセグメントの77%が、検出されたコンテキストと適切に一致していると認識されている。
論文 参考訳(メタデータ) (2024-02-22T13:32:33Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Compliance Checking with NLI: Privacy Policies vs. Regulations [0.0]
我々は、自然言語推論技術を用いて、大企業の選択したプライバシーポリシーのセクションとプライバシー規制を比較します。
本モデルでは,BiLSTMのアテンション機構とともに,事前学習した埋め込みを用いている。
論文 参考訳(メタデータ) (2022-03-01T17:27:16Z) - Automated Detection of GDPR Disclosure Requirements in Privacy Policies
using Deep Active Learning [3.659023646021795]
ほとんどのプライバシポリシは冗長で、ジャーゴンに満ちており、企業のデータプラクティスとユーザの権利を曖昧に記述しています。
本稿では,18の要件をラベル付けした1,080のWebサイトのプライバシポリシデータセットを作成する。
我々は、89.2%の精度でプライバシーポリシーを分類できる畳み込みネットワーク(CNN)ベースのモデルを開発した。
論文 参考訳(メタデータ) (2021-11-08T01:28:27Z) - PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文 参考訳(メタデータ) (2020-10-06T09:04:58Z) - A Comparative Study of Sequence Classification Models for Privacy Policy
Coverage Analysis [0.0]
プライバシーポリシーは、ウェブサイトがユーザーのデータを収集、使用、配布する方法を記述する法的文書である。
私たちのソリューションは、さまざまな古典的な機械学習とディープラーニング技術を使用して、Webサイトのプライバシポリシのカバレッジ分析をユーザに提供することです。
論文 参考訳(メタデータ) (2020-02-12T21:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。