論文の概要: Automating Governing Knowledge Commons and Contextual Integrity (GKC-CI)
Privacy Policy Annotations with Large Language Models
- arxiv url: http://arxiv.org/abs/2311.02192v1
- Date: Fri, 3 Nov 2023 18:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 18:56:33.448506
- Title: Automating Governing Knowledge Commons and Contextual Integrity (GKC-CI)
Privacy Policy Annotations with Large Language Models
- Title(参考訳): 言語モデルを用いた知識コモンズとコンテキスト統合(GKC-CI)プライバシポリシアノテーションの自動化
- Authors: Jake Chanenson, Madison Pickering, Noah Apthorpe
- Abstract要約: 本稿では,大規模言語モデルを用いて高精度なGKC-CIパラメータアノテーションを自動実行できることを実証する。
我々は16の根拠となる真実のプライバシポリシから,21,588 GKC-CIアノテーション上に18のオープンソースおよびプロプライエタリなモデルを微調整する。
私たちの最高のパフォーマンスモデルは86%の精度で、以前のクラウドソーシングのアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 1.03590082373586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying contextual integrity (CI) and governing knowledge commons (GKC)
parameters in privacy policy texts can facilitate normative privacy analysis.
However, GKC-CI annotation has heretofore required manual or crowdsourced
effort. This paper demonstrates that high-accuracy GKC-CI parameter annotation
of privacy policies can be performed automatically using large language models.
We fine-tune 18 open-source and proprietary models on 21,588 GKC-CI annotations
from 16 ground truth privacy policies. Our best-performing model (fine-tuned
GPT-3.5 Turbo with prompt engineering) has an accuracy of 86%, exceeding the
performance of prior crowdsourcing approaches despite the complexity of privacy
policy texts and the nuance of the GKC-CI annotation task. We apply our
best-performing model to privacy policies from 164 popular online services,
demonstrating the effectiveness of scaling GKC-CI annotation for data
exploration. We make all annotated policies as well as the training data and
scripts needed to fine-tune our best-performing model publicly available for
future research.
- Abstract(参考訳): プライバシーポリシーテキストにおける文脈整合性(CI)と知識共通性(GKC)パラメータの同定は、規範的プライバシー分析を促進する。
しかし、gkc-ciアノテーションは、マニュアルまたはクラウドソースの作業を必要とする。
本稿では,大規模言語モデルを用いて,プライバシーポリシーの高精度なGKC-CIパラメータアノテーションを自動実行できることを実証する。
我々は16の根拠となる真実のプライバシポリシから,21,588 GKC-CIアノテーション上に18のオープンソースおよびプロプライエタリなモデルを微調整する。
プライバシポリシテキストの複雑さやGKC-CIアノテーションタスクのニュアンスにもかかわらず,私たちの最高のパフォーマンスモデル(ファインチューニングによるGPT-3.5ターボ)の精度は,クラウドソーシングのアプローチよりも86%高い。
データ探索のためのGKC-CIアノテーションのスケーリングの有効性を実証し、私たちの最高のパフォーマンスモデルを164の人気のオンラインサービスからのプライバシポリシーに適用する。
私たちはすべての注釈付きポリシーとトレーニングデータとスクリプトを作成し、将来の研究のために最高のパフォーマンスモデルを公開できるようにしています。
関連論文リスト
- Reducing Privacy Risks in Online Self-Disclosures with Language Models [27.590704005745874]
我々は19の自己開示カテゴリの分類を開発し,4.8Kの注釈付き開示スパンからなる大きなコーパスをキュレートした。
検出のための言語モデルを微調整し、部分的なスパンを65%以上達成しました。
本稿では, 自己開示抽象化の課題について紹介する。これは, 情報開示を実用性を維持しつつ, あまり具体的でない用語に言い換えるものである。
論文 参考訳(メタデータ) (2023-11-16T03:28:43Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models
via Contextual Integrity Theory [86.8514623654506]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - PolicyGPT: Automated Analysis of Privacy Policies with Large Language
Models [41.969546784168905]
実際に使う場合、ユーザーは慎重に読むのではなく、Agreeボタンを直接クリックする傾向がある。
このプラクティスは、プライバシーの漏洩や法的問題のリスクにユーザをさらけ出す。
近年,ChatGPT や GPT-4 などの大規模言語モデル (LLM) が出現し,テキスト解析の新たな可能性が高まっている。
論文 参考訳(メタデータ) (2023-09-19T01:22:42Z) - SeePrivacy: Automated Contextual Privacy Policy Generation for Mobile
Applications [21.186902172367173]
SeePrivacyは、モバイルアプリのコンテキストプライバシポリシを自動的に生成するように設計されている。
本手法は,モバイルGUI理解とプライバシポリシ文書解析を相乗的に組み合わせた手法である。
検索されたポリシーセグメントの96%は、そのコンテキストと正しく一致させることができる。
論文 参考訳(メタデータ) (2023-07-04T12:52:45Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - PLUE: Language Understanding Evaluation Benchmark for Privacy Policies
in English [77.79102359580702]
プライバシポリシ言語理解評価ベンチマークは,プライバシポリシ言語理解を評価するマルチタスクベンチマークである。
また、プライバシポリシの大規模なコーパスを収集し、プライバシポリシドメイン固有の言語モデル事前トレーニングを可能にします。
ドメイン固有の連続的な事前トレーニングは、すべてのタスクでパフォーマンスを改善することを実証します。
論文 参考訳(メタデータ) (2022-12-20T05:58:32Z) - No Free Lunch in "Privacy for Free: How does Dataset Condensation Help
Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。
プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文 参考訳(メタデータ) (2022-09-29T17:50:23Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - AI-enabled Automation for Completeness Checking of Privacy Policies [7.707284039078785]
ヨーロッパでは、プライバシーポリシーは一般データ保護規則に準拠する。
本稿では,プライバシーポリシーの完全性チェックのためのAIベースの自動化を提案する。
論文 参考訳(メタデータ) (2021-06-10T12:10:51Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Beyond The Text: Analysis of Privacy Statements through Syntactic and
Semantic Role Labeling [12.74252812104216]
本稿では,プライバシポリシからコンテキスト整合性(Contextual Integrity)のレンズを通じて,プライバシパラメータを抽出する新たなタスクを定式化する。
最近提案された質問応答に基づくソリューションを含む従来のNLPタスクは、プライバシパラメータ抽出の問題に対処するには不十分であることを示す。
論文 参考訳(メタデータ) (2020-10-01T20:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。