論文の概要: Extractive text summarisation of Privacy Policy documents using machine learning approaches
- arxiv url: http://arxiv.org/abs/2404.08686v1
- Date: Tue, 9 Apr 2024 04:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 19:21:41.751742
- Title: Extractive text summarisation of Privacy Policy documents using machine learning approaches
- Title(参考訳): 機械学習を用いたプライバシポリシー文書の抽出テキスト要約
- Authors: Chanwoo Choi,
- Abstract要約: この研究は、2つの異なるクラスタリングアルゴリズムに基づく2つのプライバシポリシ(PP)要約モデルを示す。
Kmeansは10の一般的なクラスタリングアルゴリズムを広範囲に評価した後、最初のモデルで使用される。
PDCクラスタリングアルゴリズムに基づく要約モデルは、各文から予め定義されたクラスタセンターまでの距離で個別の文を分離することでPP文書を要約する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work demonstrates two Privacy Policy (PP) summarisation models based on two different clustering algorithms: K-means clustering and Pre-determined Centroid (PDC) clustering. K-means is decided to be used for the first model after an extensive evaluation of ten commonly used clustering algorithms. The summariser model based on the PDC-clustering algorithm summarises PP documents by segregating individual sentences by Euclidean distance from each sentence to the pre-defined cluster centres. The cluster centres are defined according to General Data Protection Regulation (GDPR)'s 14 essential topics that must be included in any privacy notices. The PDC model outperformed the K-means model for two evaluation methods, Sum of Squared Distance (SSD) and ROUGE by some margin (27% and 24% respectively). This result contrasts the K-means model's better performance in the general clustering of sentence vectors before running the task-specific evaluation. This indicates the effectiveness of operating task-specific fine-tuning measures on unsupervised machine-learning models. The summarisation mechanisms implemented in this paper demonstrates an idea of how to efficiently extract essential sentences that should be included in any PP documents. The summariser models could be further developed to an application that tests the GDPR-compliance (or any data privacy legislation) of PP documents.
- Abstract(参考訳): 本研究は,K平均クラスタリングとPDCクラスタリングという,2つの異なるクラスタリングアルゴリズムに基づく2つのプライバシポリシ(PP)要約モデルを示す。
K-meansは10のクラスタリングアルゴリズムを広範囲に評価した後、最初のモデルで使用されることが決定される。
PDCクラスタリングアルゴリズムに基づく要約モデルは、各文から予め定義されたクラスタセンターまでのユークリッド距離で個々の文を分離することでPP文書を要約する。
クラスタセンターは、GDPR(General Data Protection Regulation)の14の重要トピックに従って定義されており、すべてのプライバシ通知に含めなければならない。
PDCモデルでは,2つの評価手法 (SSD) とROUGE(それぞれ27%, 24%) において, K平均モデルよりも優れていた。
この結果は、タスク固有の評価を実行する前に、文ベクトルの一般的なクラスタリングにおいて、K平均モデルのより良い性能と対照的である。
これは教師なし機械学習モデルにおけるタスク固有の微調整手法の有効性を示す。
本稿では,どのPP文書にも含めるべき必須文を効率的に抽出する方法を実証する。
要約モデルは、PP文書のGDPR準拠性(またはデータプライバシ法)をテストするアプリケーションにさらに発展させることができる。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Time series clustering based on prediction accuracy of global
forecasting models [0.0]
本稿では,時系列のモデルに基づくクラスタリング手法を提案する。
文献で提案されているほとんどの手法とは異なり、この手法はクラスタリング分割を構成する主要な要素として予測精度を考慮している。
シミュレーション実験により,クラスタリングの有効性と予測精度の両面で,本手法はいくつかの代替手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-04-30T13:12:19Z) - Differentially Private Federated Clustering over Non-IID Data [59.611244450530315]
クラスタリングクラスタ(FedC)問題は、巨大なクライアント上に分散されたラベルなしデータサンプルを、サーバのオーケストレーションの下で有限のクライアントに正確に分割することを目的としている。
本稿では,DP-Fedと呼ばれる差分プライバシー収束手法を用いた新しいFedCアルゴリズムを提案する。
提案するDP-Fedの様々な属性は、プライバシー保護の理論的解析、特に非識別的かつ独立に分散された(非i.d.)データの場合において得られる。
論文 参考訳(メタデータ) (2023-01-03T05:38:43Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - A Proposition-Level Clustering Approach for Multi-Document Summarization [82.4616498914049]
クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。
提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。
DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
論文 参考訳(メタデータ) (2021-12-16T10:34:22Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Fair Algorithms for Hierarchical Agglomerative Clustering [17.66340013352806]
Hierarchical Agglomerative Clustering (HAC)アルゴリズムは、現代のデータサイエンスで広く利用されている。
たとえデータセットが特定の保護されたグループに対するバイアスを含むとしても、これらのアルゴリズムが公平であることを保証することが不可欠である。
公平性制約を強制するHACを行うための公正アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-07T01:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。