論文の概要: Deep Active Learning with Crowdsourcing Data for Privacy Policy
Classification
- arxiv url: http://arxiv.org/abs/2008.02954v1
- Date: Fri, 7 Aug 2020 02:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 00:53:14.662708
- Title: Deep Active Learning with Crowdsourcing Data for Privacy Policy
Classification
- Title(参考訳): プライバシーポリシー分類のためのクラウドソーシングデータによるディープラーニング
- Authors: Wenjun Qiu and David Lie
- Abstract要約: アクティブラーニングとクラウドソーシングの技術は、Calpricという自動分類ツールの開発に使用されている。
Calpricは、ラベル付けコストを最小限に抑えつつ、高い精度で熟練した人間のアノテータによるアノテーションに匹敵するアノテーションを実行することができる。
我々のモデルは、オリジナルのラベル付け作業の62%だけを使用して、同じF1スコアを達成することができる。
- 参考スコア(独自算出の注目度): 6.5443502434659955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Privacy policies are statements that notify users of the services' data
practices. However, few users are willing to read through policy texts due to
the length and complexity. While automated tools based on machine learning
exist for privacy policy analysis, to achieve high classification accuracy,
classifiers need to be trained on a large labeled dataset. Most existing policy
corpora are labeled by skilled human annotators, requiring significant amount
of labor hours and effort. In this paper, we leverage active learning and
crowdsourcing techniques to develop an automated classification tool named
Calpric (Crowdsourcing Active Learning PRIvacy Policy Classifier), which is
able to perform annotation equivalent to those done by skilled human annotators
with high accuracy while minimizing the labeling cost. Specifically, active
learning allows classifiers to proactively select the most informative segments
to be labeled. On average, our model is able to achieve the same F1 score using
only 62% of the original labeling effort. Calpric's use of active learning also
addresses naturally occurring class imbalance in unlabeled privacy policy
datasets as there are many more statements stating the collection of private
information than stating the absence of collection. By selecting samples from
the minority class for labeling, Calpric automatically creates a more balanced
training set.
- Abstract(参考訳): プライバシポリシは、サービスのデータプラクティスをユーザに通知するステートメントである。
しかし、長さと複雑さのためにポリシーテキストを読みたいユーザはほとんどいない。
マシンラーニングに基づく自動ツールは、プライバシポリシ分析には存在するが、高い分類精度を達成するには、大きなラベル付きデータセットで分類器をトレーニングする必要がある。
既存の政策コーパスのほとんどは、熟練した人間のアノテータによってラベル付けされており、かなりの労働時間と労力を必要とする。
本稿では,機械学習とクラウドソーシングの手法を活用し,ラベル付けコストを最小化しつつ,熟練者によるアノテーションと同等のアノテーションを高精度に実行可能な,calpric (crowdsourcing active learning privacy policy classificationifier) という自動分類ツールを開発した。
具体的には、アクティブな学習により、分類器はラベル付けされる最も情報性の高いセグメントを積極的に選択することができる。
平均して、我々のモデルはオリジナルのラベル付け作業の62%で同じF1スコアを達成することができる。
Calpricのアクティブラーニングの使用は、未ラベルのプライバシーポリシーデータセットで自然に発生するクラス不均衡にも対処する。
ラベル付けのためにマイノリティクラスからサンプルを選択することで、Calpricは自動的にバランスのとれたトレーニングセットを生成する。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Calpric: Inclusive and Fine-grain Labeling of Privacy Policies with
Crowdsourcing and Active Learning [5.279873919047532]
本稿では,自動テキスト選択とセグメンテーション,アクティブラーニング,クラウドソースアノテータの利用を併用して,プライバシーポリシーのための大規模かつバランスの取れたトレーニングセットを低コストで生成するCalpricを提案する。
Calpricのトレーニングプロセスは、9つのデータカテゴリにまたがる16Kのプライバシポリシテキストセグメントのラベル付きデータセットも生成する。
論文 参考訳(メタデータ) (2024-01-16T01:27:26Z) - Exploring Vacant Classes in Label-Skewed Federated Learning [113.65301899666645]
クライアント間の局所的なラベル分布の相違を特徴とするラベルスキューは、連合学習において大きな課題となる。
本稿では, ラベルスキュード・フェデレート学習における新しい手法であるFedVLSについて紹介する。
論文 参考訳(メタデータ) (2024-01-04T16:06:31Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - Labels, Information, and Computation: Efficient, Privacy-Preserving
Learning Using Sufficient Labels [0.0]
すべてのトレーニング例について,完全なラベル情報が必要な訳ではありません。
この統計を「十分なラベル付きデータ」と呼び、その完全性と効率性を証明する。
十分にラベル付けされたデータは、絶対的な情報ではなく、親戚を格納することで、ユーザのプライバシを自然に保存する。
論文 参考訳(メタデータ) (2021-04-19T02:15:25Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - A Pitfall of Learning from User-generated Data: In-depth Analysis of
Subjective Class Problem [1.218340575383456]
ユーザ定義ラベルに主観クラスと客観クラスという2種類のクラスを提案する。
我々はこれを主観的クラス問題と定義し、オラクルクエリを使わずにデータセット内の主観的ラベルを検出するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2020-03-24T02:25:52Z) - R\'{e}nyi Entropy Bounds on the Active Learning Cost-Performance
Tradeoff [27.436483977171328]
半教師付き分類は、しばしば豊富なラベル付けされていないデータの統計的知識と、しばしば制限されたラベル付けされたデータを組み合わせて、全体的な分類精度を最大化する方法について研究する。
本稿では,ラベル付きラベル付きデータを用いた半教師付き分類における最適ポリシーの非漸近解析を開始する。
本稿では,ラベルクエリ予算によるコスト対効果のトレードオフと全体分類精度の観点から,共同最適化型アクティブラーニングと半教師付き分類ポリシーを初めて評価する。
論文 参考訳(メタデータ) (2020-02-05T22:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。