論文の概要: Word-level Annotation of GDPR Transparency Compliance in Privacy Policies using Large Language Models
- arxiv url: http://arxiv.org/abs/2503.10727v1
- Date: Thu, 13 Mar 2025 11:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:04:41.043014
- Title: Word-level Annotation of GDPR Transparency Compliance in Privacy Policies using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたプライバシポリシにおけるGDPR透明性のワードレベルアノテーション
- Authors: Thomas Cory, Wolf Rieder, Julia Krämer, Philip Raschke, Patrick Herbke, Axel Küpper,
- Abstract要約: 本稿では,言語モデル(LLM)をベースとした,単語レベルの透明性コンプライアンスアノテーションを提案する。
このパイプラインは、プライバシーポリシーにおける透明性に関連するコンテンツの体系的な識別と詳細なアノテーションを可能にする。
我々は8つの著名なLCMの比較分析を行い、透明性開示の特定におけるその有効性について考察する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Ensuring transparency of data practices related to personal information is a fundamental requirement under the General Data Protection Regulation (GDPR), particularly as mandated by Articles 13 and 14. However, assessing compliance at scale remains a challenge due to the complexity and variability of privacy policy language. Manual audits are resource-intensive and inconsistent, while existing automated approaches lack the granularity needed to capture nuanced transparency disclosures. In this paper, we introduce a large language model (LLM)-based framework for word-level GDPR transparency compliance annotation. Our approach comprises a two-stage annotation pipeline that combines initial LLM-based annotation with a self-correction mechanism for iterative refinement. This annotation pipeline enables the systematic identification and fine-grained annotation of transparency-related content in privacy policies, aligning with 21 GDPR-derived transparency requirements. To enable large-scale analysis, we compile a dataset of 703,791 English-language policies, from which we generate a sample of 200 manually annotated privacy policies. To evaluate our approach, we introduce a two-tiered methodology assessing both label- and span-level annotation performance. We conduct a comparative analysis of eight high-profile LLMs, providing insights into their effectiveness in identifying GDPR transparency disclosures. Our findings contribute to advancing the automation of GDPR compliance assessments and provide valuable resources for future research in privacy policy analysis.
- Abstract(参考訳): 個人情報に関するデータ慣行の透明性の確保は、特に第13条及び第14条により規定されたGDPR(General Data Protection Regulation)の基本要件である。
しかし、プライバシポリシー言語の複雑さと多様性のため、大規模にコンプライアンスを評価することは依然として課題である。
手動の監査はリソース集約的で一貫性がないが、既存の自動化アプローチでは、微妙な透明性開示をキャプチャするために必要な粒度が欠如している。
本稿では,単語レベルのGDPR透過性コンプライアンスアノテーションのための大規模言語モデル(LLM)に基づくフレームワークを提案する。
提案手法は,初期LPMに基づくアノテーションと反復修正のための自己補正機構を組み合わせた2段階のアノテーションパイプラインから構成される。
このアノテーションパイプラインは、プライバシーポリシーにおける透明性関連コンテンツの体系的な識別と詳細なアノテーションを可能にし、GDPR由来の透明性要件21と整合する。
大規模な分析を可能にするために、703,791の英語ポリシーのデータセットをコンパイルし、そこから手動でアノテートされたプライバシーポリシー200のサンプルを生成する。
提案手法を評価するために,ラベルレベルとスパンレベルの両方のアノテーション性能を評価する2層手法を提案する。
我々は,8つの著名なLCMの比較分析を行い,GDPRの透明性開示を識別する上での有効性について考察する。
本研究は,GDPRコンプライアンスアセスメントの自動化に寄与し,今後のプライバシポリシ分析研究に有用な資源を提供する。
関連論文リスト
- Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - Transparent NLP: Using RAG and LLM Alignment for Privacy Q&A [15.86510147965235]
一般データ保護規則では、正確な処理情報を明確でアクセスしやすいものにする必要がある。
本稿では,その義務を果たすためのアライメント技術によって強化された,最先端の検索生成システムについて検討する。
論文 参考訳(メタデータ) (2025-02-10T16:42:00Z) - Context-DPO: Aligning Language Models for Context-Faithfulness [80.62221491884353]
本研究では,大規模言語モデルの文脈信頼度を高めるためのアライメント手法を提案する。
ConFiQAから提供されたコンテキストの質問に対する忠実で頑健な応答を活用することで、Context-DPOは直接の選好最適化を通じてLLMを調整します。
大規模な実験により、私たちのContext-DPOは、一般的なオープンソースモデルで35%から280%の改善を達成し、コンテキスト忠実性を大幅に改善します。
論文 参考訳(メタデータ) (2024-12-18T04:08:18Z) - A Comprehensive Study on GDPR-Oriented Analysis of Privacy Policies: Taxonomy, Corpus and GDPR Concept Classifiers [18.770985160731122]
我々は、より完全な分類法を開発し、階層的な情報を持つラベル付きプライバシポリシーの最初のコーパスを作成し、プライバシポリシーのための概念分類器の最も包括的なパフォーマンス評価を行った。
本研究は, セグメントレベルでのトレーニングとテストセットの分割が適切でないこと, 階層的情報を考慮したことのメリット, 「一つのサイズがすべてに適合する」アプローチの限界, クロスコーパスの汎用性をテストすることの意義など, 新たな発見を導く。
論文 参考訳(メタデータ) (2024-10-07T05:19:12Z) - Privacy Policy Analysis through Prompt Engineering for LLMs [3.059256166047627]
PAPEL (Privacy Policy Analysis through Prompt Engineering for LLMs) は、Large Language Models (LLMs) の力を利用してプライバシーポリシーの分析を自動化するフレームワークである。
これらのポリシーからの情報の抽出、アノテーション、要約を合理化し、追加のモデルトレーニングを必要とせず、アクセシビリティと理解性を高めることを目的としている。
PAPELの有効性を, (i) アノテーションと (ii) 矛盾解析の2つの応用で実証した。
論文 参考訳(メタデータ) (2024-09-23T10:23:31Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - A Human-in-the-Loop Approach for Information Extraction from Privacy
Policies under Data Scarcity [0.0]
プライバシポリシアノテーションに対するHuman-in-the-Loopアプローチのプロトタイプシステムを提案する。
本稿では,プライバシポリシアノテーションの領域で一般的なデータ不足の制約に特化して,MLに基づく提案システムを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:26Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Achieving Transparency Report Privacy in Linear Time [1.9981375888949475]
我々はまず,公開atrにおける透明性と公平性対策の展開によって引き起こされる潜在的なプライバシーリスクを調査し,実証する。
そこで本研究では,標準線形分数プログラミング(LFP)理論に基づく線形時間最適プライバシスキームを提案し,ATRを発表する。
当機構が引き起こすプライバシー・ユーティリティのトレードオフを定量化し、プライバシーの乱用がATRの公正性対策に与える影響を分析します。
論文 参考訳(メタデータ) (2021-03-31T22:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。