論文の概要: Large Language Models: A New Approach for Privacy Policy Analysis at Scale
- arxiv url: http://arxiv.org/abs/2405.20900v1
- Date: Fri, 31 May 2024 15:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:58:40.623460
- Title: Large Language Models: A New Approach for Privacy Policy Analysis at Scale
- Title(参考訳): 大規模言語モデル: 大規模プライバシポリシ分析の新しいアプローチ
- Authors: David Rodriguez, Ian Yang, Jose M. Del Alamo, Norman Sadeh,
- Abstract要約: 本研究は,大規模プライバシポリシから効果的かつ効率的にプライバシプラクティスを抽出する代替手段として,LLM(Large Language Models)の適用を提案する。
我々はChatGPTやLlama 2といった有名なLLMを活用し、プロンプト、パラメータ、モデルの最適設計に関するガイダンスを提供する。
評価では、ドメイン内のいくつかの有名なデータセットをベンチマークとして、その例外的な性能を評価し、F1スコアが93%を超えた。
- 参考スコア(独自算出の注目度): 1.7570777893613145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The number and dynamic nature of web and mobile applications presents significant challenges for assessing their compliance with data protection laws. In this context, symbolic and statistical Natural Language Processing (NLP) techniques have been employed for the automated analysis of these systems' privacy policies. However, these techniques typically require labor-intensive and potentially error-prone manually annotated datasets for training and validation. This research proposes the application of Large Language Models (LLMs) as an alternative for effectively and efficiently extracting privacy practices from privacy policies at scale. Particularly, we leverage well-known LLMs such as ChatGPT and Llama 2, and offer guidance on the optimal design of prompts, parameters, and models, incorporating advanced strategies such as few-shot learning. We further illustrate its capability to detect detailed and varied privacy practices accurately. Using several renowned datasets in the domain as a benchmark, our evaluation validates its exceptional performance, achieving an F1 score exceeding 93%. Besides, it does so with reduced costs, faster processing times, and fewer technical knowledge requirements. Consequently, we advocate for LLM-based solutions as a sound alternative to traditional NLP techniques for the automated analysis of privacy policies at scale.
- Abstract(参考訳): ウェブおよびモバイルアプリケーションの数と動的性質は、データ保護法によるコンプライアンスを評価する上で重要な課題である。
この文脈では、これらのシステムのプライバシポリシの自動解析には、象徴的かつ統計的自然言語処理(NLP)技術が使用されている。
しかしながら、これらのテクニックは通常、トレーニングと検証のために、労働集約的で潜在的にエラーを起こしやすいアノテートデータセットを必要とする。
本研究は,大規模プライバシポリシから効果的かつ効率的にプライバシプラクティスを抽出する代替手段として,LLM(Large Language Models)の適用を提案する。
特に,ChatGPTやLlama 2といった有名なLCMを活用し,プロンプト,パラメータ,モデルの最適設計に関するガイダンスを提供する。
さらに、詳細で多様なプライバシープラクティスを正確に検出する能力についても説明します。
評価では、ドメイン内のいくつかの有名なデータセットをベンチマークとして、その例外的な性能を評価し、F1スコアが93%を超えた。
さらに、コストの削減、処理時間の短縮、技術的知識の要求の低減も実現しています。
その結果、我々はLLMベースのソリューションを、大規模にプライバシーポリシーを自動解析する従来のNLP技術に代わる健全な代替手段として提唱した。
関連論文リスト
- Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Collection, usage and privacy of mobility data in the enterprise and public administrations [55.2480439325792]
個人のプライバシーを守るためには、匿名化などのセキュリティ対策が必要である。
本研究では,現場における実践の洞察を得るために,専門家によるインタビューを行った。
我々は、一般的には最先端の差分プライバシー基準に準拠しない、使用中のプライバシー強化手法を調査した。
論文 参考訳(メタデータ) (2024-07-04T08:29:27Z) - Learn When (not) to Trust Language Models: A Privacy-Centric Adaptive Model-Aware Approach [23.34505448257966]
Retrieval-augmented large language model (LLMs) は、様々なNLPタスクにおいて非常に有能である。
LLMの事前学習データを解析することにより,データ認識による検索をいつ行うかを決定する方法が提案されている。
これらのデータ認識手法は、特に機密データや広範な事前学習データへのアクセスを必要とする場合に、プライバシー上のリスクとメモリ制限をもたらす。
我々は、トークンの埋め込みがモデルの本質的な知識を捉えることができると仮定し、事前学習データへのアクセスに関連するプライバシーリスクを伴わずに、検索の必要性を判断するためのより安全で簡単な方法を提供する。
論文 参考訳(メタデータ) (2024-04-04T15:21:22Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Privacy Meets Explainability: A Comprehensive Impact Benchmark [4.526582372434088]
この研究は、Deep Learningベースのモデルで生成された説明にプライベートラーニング技術が与える影響を初めて調査したものである。
この結果は、プライバシーの導入による説明の無視できない変化を示唆している。
論文 参考訳(メタデータ) (2022-11-08T09:20:28Z) - On the utility and protection of optimization with differential privacy
and classic regularization techniques [9.413131350284083]
本稿では,標準最適化手法に対するDP-SGDアルゴリズムの有効性について検討する。
我々は、差分プライバシーの欠陥と限界について議論し、ドロップアウトとl2-規則化のプライバシー保護特性がしばしば優れていることを実証した。
論文 参考訳(メタデータ) (2022-09-07T14:10:21Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Detecting Privacy Requirements from User Stories with NLP Transfer
Learning Models [1.6951941479979717]
本稿では,プライバシ関連情報を自動検出することで,アジャイルソフトウェア開発におけるプライバシリスクを低減するアプローチを提案する。
提案手法は自然言語処理(NLP)と言語資源とディープラーニングアルゴリズムを組み合わせて,プライバシの側面をユーザストーリに識別する。
論文 参考訳(メタデータ) (2022-02-02T14:02:13Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。