論文の概要: A Privacy-Preserving Approach to Extraction of Personal Information
through Automatic Annotation and Federated Learning
- arxiv url: http://arxiv.org/abs/2105.09198v1
- Date: Wed, 19 May 2021 15:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:51:02.465045
- Title: A Privacy-Preserving Approach to Extraction of Personal Information
through Automatic Annotation and Federated Learning
- Title(参考訳): 自動アノテーションとフェデレーション学習による個人情報抽出のためのプライバシ保護手法
- Authors: Rajitha Hathurusinghe, Isar Nejadgholi, Miodrag Bolic
- Abstract要約: 我々はウィキペディアの伝記ページからなる自動ラベル付きデータセットであるWikiPIIを、個人情報抽出のための注釈付きでキュレートした。
我々は、WikiPIIを用いてBERTベースのNERモデルをトレーニングし、十分なトレーニングデータセットを用いて、手動情報抽出のコストを大幅に削減できることを示した。
- 参考スコア(独自算出の注目度): 0.22099217573031674
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We curated WikiPII, an automatically labeled dataset composed of Wikipedia
biography pages, annotated for personal information extraction. Although
automatic annotation can lead to a high degree of label noise, it is an
inexpensive process and can generate large volumes of annotated documents. We
trained a BERT-based NER model with WikiPII and showed that with an adequately
large training dataset, the model can significantly decrease the cost of manual
information extraction, despite the high level of label noise. In a similar
approach, organizations can leverage text mining techniques to create
customized annotated datasets from their historical data without sharing the
raw data for human annotation. Also, we explore collaborative training of NER
models through federated learning when the annotation is noisy. Our results
suggest that depending on the level of trust to the ML operator and the volume
of the available data, distributed training can be an effective way of training
a personal information identifier in a privacy-preserved manner. Research
material is available at https://github.com/ratmcu/wikipiifed.
- Abstract(参考訳): 我々はウィキペディアの伝記ページからなる自動ラベル付きデータセットであるWikiPIIを、個人情報抽出のために注釈付けした。
自動アノテーションは高いラベルノイズを引き起こす可能性があるが、安価なプロセスであり、大量の注釈付き文書を生成することができる。
bertベースのnerモデルをwikipiiでトレーニングし,適切な大規模トレーニングデータセットを用いて,ラベルノイズのレベルが高いにも関わらず,手動情報抽出のコストを大幅に削減できることを示した。
同様のアプローチで、組織はテキストマイニング技術を利用して、人間のアノテーションの生データを共有することなく、履歴データからカスタマイズされた注釈付きデータセットを作成することができる。
また,アノテーションがうるさいときのフェデレーション学習を通じて,NERモデルの協調学習についても検討する。
この結果から,MLオペレータへの信頼度や利用可能なデータ量に応じて,分散トレーニングは,個人情報識別子をプライバシ保護された方法でトレーニングする上で有効な方法であることが示唆された。
研究資料はhttps://github.com/ratmcu/wikipiifedで入手できる。
関連論文リスト
- Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical
Handwritten Documents [3.9688530261646653]
歴史的文書におけるキーワードスポッティング(KWS)は、デジタル化されたコレクションを最初に探究するための重要なツールである。
マスク・アンド・予測パラダイムに基づく視覚変換器をベースとしたマスク付き自動エンコーダモデルST-KeySを提案する。
微調整段階において、事前訓練されたエンコーダは、入力画像から特徴埋め込みを改善するために微調整されたサイムズニューラルネットワークモデルに統合される。
論文 参考訳(メタデータ) (2023-03-06T13:39:41Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Privacy-Preserving Machine Learning for Collaborative Data Sharing via
Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。
本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T17:36:58Z) - Learning Instructions with Unlabeled Data for Zero-Shot Cross-Task
Generalization [68.91386402390403]
本研究では,学習中の命令をよりよく活用するために,Unlabeled Data Augmented Instruction Tuning (UDIT)を提案する。
タスクやデータセットのさまざまなシナリオにおいて,UDITの有効性を示すための広範な実験を行う。
論文 参考訳(メタデータ) (2022-10-17T15:25:24Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - A Survey on Deep Learning with Noisy Labels: How to train your model
when you cannot trust on the annotations? [21.562089974755125]
ノイズラベルの存在下でのディープラーニングモデルのトレーニングを改善するために,いくつかのアプローチが提案されている。
本稿では,ロバストな損失,サンプル重み付け,サンプル選択,メタラーニング,組み合わせアプローチの3つのグループでアルゴリズムを分類する。
論文 参考訳(メタデータ) (2020-12-05T15:45:20Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。