論文の概要: A Comprehensive Study on GDPR-Oriented Analysis of Privacy Policies: Taxonomy, Corpus and GDPR Concept Classifiers
- arxiv url: http://arxiv.org/abs/2410.04754v1
- Date: Mon, 7 Oct 2024 05:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 02:07:46.537057
- Title: A Comprehensive Study on GDPR-Oriented Analysis of Privacy Policies: Taxonomy, Corpus and GDPR Concept Classifiers
- Title(参考訳): プライバシー政策のGDPR指向分析に関する総合的研究--分類学・コーパス・GDPR概念分類
- Authors: Peng Tang, Xin Li, Yuxin Chen, Weidong Qiu, Haochen Mei, Allison Holmes, Fenghua Li, Shujun Li,
- Abstract要約: 我々は、より完全な分類法を開発し、階層的な情報を持つラベル付きプライバシポリシーの最初のコーパスを作成し、プライバシポリシーのための概念分類器の最も包括的なパフォーマンス評価を行った。
本研究は, セグメントレベルでのトレーニングとテストセットの分割が適切でないこと, 階層的情報を考慮したことのメリット, 「一つのサイズがすべてに適合する」アプローチの限界, クロスコーパスの汎用性をテストすることの意義など, 新たな発見を導く。
- 参考スコア(独自算出の注目度): 18.770985160731122
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning based classifiers that take a privacy policy as the input and predict relevant concepts are useful in different applications such as (semi-)automated compliance analysis against requirements of the EU GDPR. In all past studies, such classifiers produce a concept label per segment (e.g., sentence or paragraph) and their performances were evaluated by using a dataset of labeled segments without considering the privacy policy they belong to. However, such an approach could overestimate the performance in real-world settings, where all segments in a new privacy policy are supposed to be unseen. Additionally, we also observed other research gaps, including the lack of a more complete GDPR taxonomy and the less consideration of hierarchical information in privacy policies. To fill such research gaps, we developed a more complete GDPR taxonomy, created the first corpus of labeled privacy policies with hierarchical information, and conducted the most comprehensive performance evaluation of GDPR concept classifiers for privacy policies. Our work leads to multiple novel findings, including the confirmed inappropriateness of splitting training and test sets at the segment level, the benefits of considering hierarchical information, and the limitations of the "one size fits all" approach, and the significance of testing cross-corpus generalizability.
- Abstract(参考訳): プライバシポリシを入力として、関連する概念を予測するマシンラーニングベースの分類器は、EU GDPRの要件に対する(半自動コンプライアンス分析のような)異なるアプリケーションで有用である。
過去のすべての研究において、これらの分類器はセグメント毎の概念ラベル(例:文または段落)を作成し、それらの性能は、所属するプライバシポリシーを考慮せずにラベル付きセグメントのデータセットを用いて評価された。
しかし、そのようなアプローチは、新しいプライバシーポリシーのすべてのセグメントが見えないように、現実世界の環境でのパフォーマンスを過大評価する可能性がある。
さらに、より完全なGDPR分類の欠如や、プライバシーポリシーにおける階層的な情報の考慮の欠如など、他の研究のギャップも観察した。
このような研究ギャップを埋めるため、我々はより完全なGDPR分類法を開発し、階層的な情報を持つラベル付きプライバシポリシーの最初のコーパスを作成し、プライバシポリシーのためのGDPR概念分類器の最も包括的なパフォーマンス評価を行った。
本研究は, セグメントレベルでのトレーニングとテストセットの分割が適切でないこと, 階層的情報を考慮したことのメリット, 「一つのサイズがすべてに適合する」アプローチの限界, クロスコーパスの汎用性をテストすることの意義など, 新たな発見を導く。
関連論文リスト
- Optimal Federated Learning for Nonparametric Regression with Heterogeneous Distributed Differential Privacy Constraints [5.3595271893779906]
本研究では,異なるサーバにまたがる分散サンプルのコンテキストにおける非パラメトリック回帰のためのフェデレーション学習について検討した。
統計の正確さとプライバシーの保護のトレードオフに光を当てている。
論文 参考訳(メタデータ) (2024-06-10T19:34:07Z) - Extractive text summarisation of Privacy Policy documents using machine learning approaches [0.0]
この研究は、2つの異なるクラスタリングアルゴリズムに基づく2つのプライバシポリシ(PP)要約モデルを示す。
Kmeansは10の一般的なクラスタリングアルゴリズムを広範囲に評価した後、最初のモデルで使用される。
PDCクラスタリングアルゴリズムに基づく要約モデルは、各文から予め定義されたクラスタセンターまでの距離で個別の文を分離することでPP文書を要約する。
論文 参考訳(メタデータ) (2024-04-09T04:54:08Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - Expert opinions on making GDPR usable [0.0]
私たちは、法律とデータ保護/プライバシ、認定と標準化、ユーザビリティの4つの概念に関連性のある、回答者のエキスパートとして使用しています。
我々は,「基準」,「法」,「使用可能性」の3つの専門家グループを表すデータを,産業と学界の両方から分析するために,理論三角測量を用いた。
論文 参考訳(メタデータ) (2023-08-16T11:20:16Z) - Relational Proxies: Emergent Relationships as Fine-Grained
Discriminators [52.17542855760418]
本稿では,オブジェクトのグローバル部分とローカル部分の間の情報を利用してラベルを符号化する手法を提案する。
我々は、理論的な結果に基づいてプロキシを設計し、7つの挑戦的なきめ細かいベンチマークデータセットに基づいて評価する。
また、この理論を実験的に検証し、複数のベンチマークで一貫した結果を得る。
論文 参考訳(メタデータ) (2022-10-05T11:08:04Z) - Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive
Privacy Analysis and Beyond [57.10914865054868]
垂直ロジスティック回帰(VLR)をミニバッチ降下勾配で訓練した。
我々は、オープンソースのフェデレーション学習フレームワークのクラスにおいて、VLRの包括的で厳密なプライバシー分析を提供する。
論文 参考訳(メタデータ) (2022-07-19T05:47:30Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Partial sensitivity analysis in differential privacy [58.730520380312676]
それぞれの入力特徴が個人のプライバシ損失に与える影響について検討する。
プライベートデータベース上でのクエリに対する我々のアプローチを実験的に評価する。
また、合成データにおけるニューラルネットワークトレーニングの文脈における知見についても検討する。
論文 参考訳(メタデータ) (2021-09-22T08:29:16Z) - Antipodes of Label Differential Privacy: PATE and ALIBI [2.2761657094500682]
我々は、訓練されたモデルが差分プライバシー(DP)を満たす必要がある、プライバシ保護機械学習(ML)の設定について検討する。
本稿では,Laplace メカニズムと PATE フレームワークに基づく2つの新しいアプローチを提案する。
いくつかの体制において、PATEフレームワークを適応させて、非常に強力なプライバシレベルを達成する方法を示します。
論文 参考訳(メタデータ) (2021-06-07T08:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。