論文の概要: Intent Classification and Slot Filling for Privacy Policies
- arxiv url: http://arxiv.org/abs/2101.00123v1
- Date: Fri, 1 Jan 2021 00:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 11:12:15.101808
- Title: Intent Classification and Slot Filling for Privacy Policies
- Title(参考訳): プライバシーポリシーのインテント分類とスロットフィリング
- Authors: Wasi Uddin Ahmad, Jianfeng Chi, Tu Le, Thomas Norton, Yuan Tian,
Kai-Wei Chang
- Abstract要約: PolicyIEは、ウェブサイトとモバイルアプリケーションの31のプライバシーポリシーにまたがる5,250の意図と11,788のスロットアノテーションからなるコーパスです。
本研究は,(1)連関タギングとして意図分類とスロット充填を定式化し,(2)シーケンス・ツー・シーケンス学習タスクとしてモデル化する,2つのニューラルネットワークアプローチをベースラインとして提案する。
- 参考スコア(独自算出の注目度): 34.606121042708864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding privacy policies is crucial for users as it empowers them to
learn about the information that matters to them. Sentences written in a
privacy policy document explain privacy practices, and the constituent text
spans convey further specific information about that practice. We refer to
predicting the privacy practice explained in a sentence as intent
classification and identifying the text spans sharing specific information as
slot filling. In this work, we propose PolicyIE, a corpus consisting of 5,250
intent and 11,788 slot annotations spanning 31 privacy policies of websites and
mobile applications. PolicyIE corpus is a challenging benchmark with limited
labeled examples reflecting the cost of collecting large-scale annotations. We
present two alternative neural approaches as baselines: (1) formulating intent
classification and slot filling as a joint sequence tagging and (2) modeling
them as a sequence-to-sequence (Seq2Seq) learning task. Experiment results show
that both approaches perform comparably in intent classification, while the
Seq2Seq method outperforms the sequence tagging approach in slot filling by a
large margin. Error analysis reveals the deficiency of the baseline approaches,
suggesting room for improvement in future works. We hope the PolicyIE corpus
will stimulate future research in this domain.
- Abstract(参考訳): プライバシーポリシーを理解することは、ユーザーに重要な情報を学ぶ権限を与えるため、ユーザーにとって重要である。
プライバシポリシー文書に書かれた文は、プライバシプラクティスを説明し、構成テキストは、そのプラクティスに関するさらに具体的な情報を伝える。
文中のプライバシの実践を意図分類として予測し,特定の情報をスロットフィリングとして共有するテキストを識別する。
本稿では,webサイトおよびモバイルアプリケーションの31のプライバシーポリシーにまたがる5,250インテントと11,788スロットアノテーションからなるコーパスであるpolicyieを提案する。
PolicyIE Corpusは、大規模なアノテーション収集のコストを反映したラベル付き例の限定的なベンチマークである。
本稿では,(1)結合配列タグ付けとして意図分類とスロットフィリングを定式化し,(2)シークエンス・ツー・シークエンス(Seq2Seq)学習タスクとしてモデル化する。
実験の結果,両手法は意図的分類において比較可能であり,Seq2Seq法はスロット充填におけるシーケンスタギング手法を大きなマージンで上回っていることがわかった。
エラー分析はベースラインアプローチの欠如を明らかにし、今後の作業の改善の余地を示唆している。
この分野での今後の研究を促進することを願っている。
関連論文リスト
- Differential Privacy Overview and Fundamental Techniques [63.0409690498569]
この章は、"Differential Privacy in Artificial Intelligence: From Theory to Practice"という本の一部である。
まず、データのプライバシ保護のためのさまざまな試みについて説明し、その失敗の場所と理由を強調した。
次に、プライバシ保護データ分析の領域を構成する重要なアクター、タスク、スコープを定義する。
論文 参考訳(メタデータ) (2024-11-07T13:52:11Z) - Preserving Node-level Privacy in Graph Neural Networks [8.823710998526705]
グラフニューラルネットワーク(GNN)におけるノードレベルのプライバシの問題に対処するソリューションを提案する。
提案プロトコルは,1) 特定のノードサンプリング戦略と一連の調整操作を用いて所望の特性を持つサブグラフを生成するHeterPoissonと呼ばれるサンプリングルーチンと,2) 一般的に使用されるガウスノイズの代わりに対称ラプラスノイズを利用するランダム化ルーチンとからなる。
提案プロトコルは,実世界の5つのデータセットを用いた実験によって実証された,優れた性能でGNN学習を可能にする。
論文 参考訳(メタデータ) (2023-11-12T16:21:29Z) - PolicyGPT: Automated Analysis of Privacy Policies with Large Language
Models [41.969546784168905]
実際に使う場合、ユーザーは慎重に読むのではなく、Agreeボタンを直接クリックする傾向がある。
このプラクティスは、プライバシーの漏洩や法的問題のリスクにユーザをさらけ出す。
近年,ChatGPT や GPT-4 などの大規模言語モデル (LLM) が出現し,テキスト解析の新たな可能性が高まっている。
論文 参考訳(メタデータ) (2023-09-19T01:22:42Z) - SeePrivacy: Automated Contextual Privacy Policy Generation for Mobile
Applications [21.186902172367173]
SeePrivacyは、モバイルアプリのコンテキストプライバシポリシを自動的に生成するように設計されている。
本手法は,モバイルGUI理解とプライバシポリシ文書解析を相乗的に組み合わせた手法である。
検索されたポリシーセグメントの96%は、そのコンテキストと正しく一致させることができる。
論文 参考訳(メタデータ) (2023-07-04T12:52:45Z) - PLUE: Language Understanding Evaluation Benchmark for Privacy Policies
in English [77.79102359580702]
プライバシポリシ言語理解評価ベンチマークは,プライバシポリシ言語理解を評価するマルチタスクベンチマークである。
また、プライバシポリシの大規模なコーパスを収集し、プライバシポリシドメイン固有の言語モデル事前トレーニングを可能にします。
ドメイン固有の連続的な事前トレーニングは、すべてのタスクでパフォーマンスを改善することを実証します。
論文 参考訳(メタデータ) (2022-12-20T05:58:32Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文 参考訳(メタデータ) (2020-10-06T09:04:58Z) - APPCorp: A Corpus for Android Privacy Policy Document Structure Analysis [16.618995752616296]
この作業では,166ドルのプライバシポリシを含む,手作業によるラベル付きコーパスを作成します。
注釈付きコーパスのアノテーションプロセスと詳細を報告する。
データコーパスを4ドルの文書分類モデルでベンチマークし、結果を徹底的に分析し、研究委員会がコーパスを使用するための課題と機会について議論する。
論文 参考訳(メタデータ) (2020-05-14T13:25:11Z) - Privacy at Scale: Introducing the PrivaSeer Corpus of Web Privacy Policies [13.09699710197036]
PrivaSeerは、100万以上の英語ウェブサイトのプライバシーポリシーのコーパスです。
本稿では,可読性テスト,文書類似性,キーフレーズ抽出の結果を示し,トピックモデリングによるコーパスの探索を行った。
論文 参考訳(メタデータ) (2020-04-23T13:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。