論文の概要: APPCorp: A Corpus for Android Privacy Policy Document Structure Analysis
- arxiv url: http://arxiv.org/abs/2005.06945v1
- Date: Thu, 14 May 2020 13:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-20 05:30:10.593576
- Title: APPCorp: A Corpus for Android Privacy Policy Document Structure Analysis
- Title(参考訳): appcorp: androidのプライバシーポリシー文書構造分析のためのコーパス
- Authors: Shuang Liu and Renjie Guo and Baiyang Zhao and Tao Chen and Meishan
Zhang
- Abstract要約: この作業では,166ドルのプライバシポリシを含む,手作業によるラベル付きコーパスを作成します。
注釈付きコーパスのアノテーションプロセスと詳細を報告する。
データコーパスを4ドルの文書分類モデルでベンチマークし、結果を徹底的に分析し、研究委員会がコーパスを使用するための課題と機会について議論する。
- 参考スコア(独自算出の注目度): 16.618995752616296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing popularity of mobile devices and the wide adoption of
mobile Apps, an increasing concern of privacy issues is raised. Privacy policy
is identified as a proper medium to indicate the legal terms, such as GDPR, and
to bind legal agreement between service providers and users. However, privacy
policies are usually long and vague for end users to read and understand. It is
thus important to be able to automatically analyze the document structures of
privacy policies to assist user understanding. In this work we create a
manually labelled corpus containing $167$ privacy policies (of more than $447$K
words and $5,276$ annotated paragraphs). We report the annotation process and
details of the annotated corpus. We also benchmark our data corpus with $4$
document classification models, thoroughly analyze the results and discuss
challenges and opportunities for the research committee to use the corpus. We
release our labelled corpus as well as the classification models for public
access.
- Abstract(参考訳): モバイルデバイスの人気が高まり、モバイルアプリが広く普及するにつれ、プライバシー問題に対する懸念が高まっている。
プライバシポリシは、GDPRのような法的用語を示し、サービスプロバイダとユーザ間の法的合意を結び付ける適切な媒体として特定されている。
しかし、プライバシーポリシーは通常、エンドユーザーが読み、理解するために長く曖昧である。
したがって、プライバシーポリシーの文書構造を自動的に分析し、ユーザの理解を支援することが重要である。
この作業では、手作業でラベル付けされたコーパスを作成し、プライバシポリシ(447ドル以上の単語と5,276ドルの注釈付きパラグラフ)を含む。
注釈付きコーパスのアノテーションプロセスと詳細を報告する。
また、データコーパスを4ドルの文書分類モデルでベンチマークし、結果を徹底的に分析し、研究委員会がコーパスを使用するための課題と機会について論じます。
公開アクセスのための分類モデルだけでなく,ラベル付きコーパスもリリースしています。
関連論文リスト
- Differential Privacy Overview and Fundamental Techniques [63.0409690498569]
この章は、"Differential Privacy in Artificial Intelligence: From Theory to Practice"という本の一部である。
まず、データのプライバシ保護のためのさまざまな試みについて説明し、その失敗の場所と理由を強調した。
次に、プライバシ保護データ分析の領域を構成する重要なアクター、タスク、スコープを定義する。
論文 参考訳(メタデータ) (2024-11-07T13:52:11Z) - EROS: Entity-Driven Controlled Policy Document Summarization [16.661448437719464]
制御された抽象要約を用いてポリシー文書の解釈可能性と可読性を向上させることを提案する。
プライバシー関連エンティティラベルをマークしたポリシー文書要約データセットであるPD-Sumを開発した。
提案モデルであるEROSは,スパン型エンティティ抽出モデルを用いて重要なエンティティを識別し,それらを用いて要約情報の内容を制御する。
論文 参考訳(メタデータ) (2024-02-29T21:44:50Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - SeePrivacy: Automated Contextual Privacy Policy Generation for Mobile
Applications [21.186902172367173]
SeePrivacyは、モバイルアプリのコンテキストプライバシポリシを自動的に生成するように設計されている。
本手法は,モバイルGUI理解とプライバシポリシ文書解析を相乗的に組み合わせた手法である。
検索されたポリシーセグメントの96%は、そのコンテキストと正しく一致させることができる。
論文 参考訳(メタデータ) (2023-07-04T12:52:45Z) - Leveraging Large Language Models for Topic Classification in the Domain
of Public Affairs [65.9077733300329]
大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。
LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
論文 参考訳(メタデータ) (2023-06-05T13:35:01Z) - PLUE: Language Understanding Evaluation Benchmark for Privacy Policies
in English [77.79102359580702]
プライバシポリシ言語理解評価ベンチマークは,プライバシポリシ言語理解を評価するマルチタスクベンチマークである。
また、プライバシポリシの大規模なコーパスを収集し、プライバシポリシドメイン固有の言語モデル事前トレーニングを可能にします。
ドメイン固有の連続的な事前トレーニングは、すべてのタスクでパフォーマンスを改善することを実証します。
論文 参考訳(メタデータ) (2022-12-20T05:58:32Z) - The Text Anonymization Benchmark (TAB): A Dedicated Corpus and
Evaluation Framework for Text Anonymization [2.9849405664643585]
本稿では,テキスト匿名化手法の性能評価のための新しいベンチマークと関連する評価指標を提案する。
テキスト匿名化は、個人情報の開示を防ぐためにテキスト文書を編集するタスクとして定義されており、現在、プライバシー指向の注釈付きテキストリソースが不足している。
本稿では,TAB (Text Anonymization Benchmark) について述べる。
論文 参考訳(メタデータ) (2022-01-25T14:34:42Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z) - Intent Classification and Slot Filling for Privacy Policies [34.606121042708864]
PolicyIEは、ウェブサイトとモバイルアプリケーションの31のプライバシーポリシーにまたがる5,250の意図と11,788のスロットアノテーションからなるコーパスです。
本研究は,(1)連関タギングとして意図分類とスロット充填を定式化し,(2)シーケンス・ツー・シーケンス学習タスクとしてモデル化する,2つのニューラルネットワークアプローチをベースラインとして提案する。
論文 参考訳(メタデータ) (2021-01-01T00:44:41Z) - PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文 参考訳(メタデータ) (2020-10-06T09:04:58Z) - Privacy at Scale: Introducing the PrivaSeer Corpus of Web Privacy Policies [13.09699710197036]
PrivaSeerは、100万以上の英語ウェブサイトのプライバシーポリシーのコーパスです。
本稿では,可読性テスト,文書類似性,キーフレーズ抽出の結果を示し,トピックモデリングによるコーパスの探索を行った。
論文 参考訳(メタデータ) (2020-04-23T13:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。