論文の概要: Calpric: Inclusive and Fine-grain Labeling of Privacy Policies with
Crowdsourcing and Active Learning
- arxiv url: http://arxiv.org/abs/2401.08038v1
- Date: Tue, 16 Jan 2024 01:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:22:51.486695
- Title: Calpric: Inclusive and Fine-grain Labeling of Privacy Policies with
Crowdsourcing and Active Learning
- Title(参考訳): Calpric: クラウドソーシングとアクティブラーニングによるプライバシポリシの包括的かつ詳細なラベル付け
- Authors: Wenjun Qiu, David Lie, and Lisa Austin
- Abstract要約: 本稿では,自動テキスト選択とセグメンテーション,アクティブラーニング,クラウドソースアノテータの利用を併用して,プライバシーポリシーのための大規模かつバランスの取れたトレーニングセットを低コストで生成するCalpricを提案する。
Calpricのトレーニングプロセスは、9つのデータカテゴリにまたがる16Kのプライバシポリシテキストセグメントのラベル付きデータセットも生成する。
- 参考スコア(独自算出の注目度): 5.279873919047532
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A significant challenge to training accurate deep learning models on privacy
policies is the cost and difficulty of obtaining a large and comprehensive set
of training data. To address these challenges, we present Calpric , which
combines automatic text selection and segmentation, active learning and the use
of crowdsourced annotators to generate a large, balanced training set for
privacy policies at low cost. Automated text selection and segmentation
simplifies the labeling task, enabling untrained annotators from crowdsourcing
platforms, like Amazon's Mechanical Turk, to be competitive with trained
annotators, such as law students, and also reduces inter-annotator agreement,
which decreases labeling cost. Having reliable labels for training enables the
use of active learning, which uses fewer training samples to efficiently cover
the input space, further reducing cost and improving class and data category
balance in the data set. The combination of these techniques allows Calpric to
produce models that are accurate over a wider range of data categories, and
provide more detailed, fine-grain labels than previous work. Our crowdsourcing
process enables Calpric to attain reliable labeled data at a cost of roughly
$0.92-$1.71 per labeled text segment. Calpric 's training process also
generates a labeled data set of 16K privacy policy text segments across 9 Data
categories with balanced positive and negative samples.
- Abstract(参考訳): プライバシーポリシーに関する正確なディープラーニングモデルをトレーニングするための重要な課題は、大規模で包括的なトレーニングデータを取得するコストと困難さである。
このような課題に対処するために、calpricは自動テキスト選択とセグメンテーション、アクティブラーニング、クラウドソースアノテータを使用して、プライバシポリシのための大規模でバランスのとれたトレーニングセットを低コストで生成する。
自動テキスト選択とセグメンテーションはラベリングタスクを単純化し、amazonのmechanical turkのようなクラウドソーシングプラットフォームから、法律学生のような訓練済みのアノテータとの競合を可能にするとともに、ラベリングコストを削減したアノテーション間契約を削減している。
トレーニングのための信頼性の高いラベルを持つことで、トレーニングサンプルを少なくして入力スペースを効率的にカバーし、コストをさらに削減し、データセットのクラスとデータカテゴリのバランスを改善することができる。
これらの技術を組み合わせることで、Calpricはより広い範囲のデータカテゴリで正確なモデルを作成し、より詳細な細粒度ラベルを提供することができる。
我々のクラウドソーシングプロセスにより、Calpricはラベル付きテキストセグメント当たり約0.92~1.71ドルで信頼性の高いラベル付きデータを取得できる。
Calpricのトレーニングプロセスは、9つのデータカテゴリにまたがる16Kのプライバシポリシテキストセグメントのラベル付きデータセットも生成する。
関連論文リスト
- Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Pseudo-Labeled Auto-Curriculum Learning for Semi-Supervised Keypoint
Localization [88.74813798138466]
オブジェクトのキーポイントのローカライズは、基本的な視覚的問題である。
キーポイントローカライゼーションネットワークの教師付き学習は、しばしば大量のデータを必要とする。
本稿では,一連の動的しきい値を持つ信頼度の高い擬似ラベルサンプルを自動的に選択する。
論文 参考訳(メタデータ) (2022-01-21T09:51:58Z) - Labels, Information, and Computation: Efficient, Privacy-Preserving
Learning Using Sufficient Labels [0.0]
すべてのトレーニング例について,完全なラベル情報が必要な訳ではありません。
この統計を「十分なラベル付きデータ」と呼び、その完全性と効率性を証明する。
十分にラベル付けされたデータは、絶対的な情報ではなく、親戚を格納することで、ユーザのプライバシを自然に保存する。
論文 参考訳(メタデータ) (2021-04-19T02:15:25Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Active Learning for Noisy Data Streams Using Weak and Strong Labelers [3.9370369973510746]
我々は、人間のラベリング能力に触発された、新しい弱くて強力なラベリング問題を考える。
そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。
我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。
論文 参考訳(メタデータ) (2020-10-27T09:18:35Z) - Deep Active Learning with Crowdsourcing Data for Privacy Policy
Classification [6.5443502434659955]
アクティブラーニングとクラウドソーシングの技術は、Calpricという自動分類ツールの開発に使用されている。
Calpricは、ラベル付けコストを最小限に抑えつつ、高い精度で熟練した人間のアノテータによるアノテーションに匹敵するアノテーションを実行することができる。
我々のモデルは、オリジナルのラベル付け作業の62%だけを使用して、同じF1スコアを達成することができる。
論文 参考訳(メタデータ) (2020-08-07T02:13:31Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Minimum Cost Active Labeling [2.0754848504005587]
ミンコストラベリングは、モデルを学ぶためにアクティブラーニングの変種を使用し、最適なトレーニングセットサイズを予測する。
いくつかのケースでは、我々のアプローチは人間のラベル付けに比べて6倍のコストがかかり、常に最も安価なアクティブラーニング戦略よりも安い。
論文 参考訳(メタデータ) (2020-06-24T19:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。