論文の概要: De-identification of Privacy-related Entities in Job Postings
- arxiv url: http://arxiv.org/abs/2105.11223v1
- Date: Mon, 24 May 2021 12:01:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:20:50.609227
- Title: De-identification of Privacy-related Entities in Job Postings
- Title(参考訳): 求人投稿におけるプライバシ関連エンティティの特定
- Authors: Kristian N{\o}rgaard Jensen, Mike Zhang, Barbara Plank
- Abstract要約: 身元特定は、人物名、電子メール、連絡先データなどのプライバシー関連エンティティをテキストで検出するタスクである。
JobStackは、Stackoverflow上のジョブの空白における個人データの非特定のための新しいコーパスである。
- 参考スコア(独自算出の注目度): 10.751883216434717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: De-identification is the task of detecting privacy-related entities in text,
such as person names, emails and contact data. It has been well-studied within
the medical domain. The need for de-identification technology is increasing, as
privacy-preserving data handling is in high demand in many domains. In this
paper, we focus on job postings. We present JobStack, a new corpus for
de-identification of personal data in job vacancies on Stackoverflow. We
introduce baselines, comparing Long-Short Term Memory (LSTM) and Transformer
models. To improve upon these baselines, we experiment with contextualized
embeddings and distantly related auxiliary data via multi-task learning. Our
results show that auxiliary data improves de-identification performance.
Surprisingly, vanilla BERT turned out to be more effective than a BERT model
trained on other portions of Stackoverflow.
- Abstract(参考訳): 身元特定は、人物名、電子メール、連絡先データなどのプライバシー関連エンティティをテキストで検出するタスクである。
医学領域内ではよく研究されている。
プライバシ保護データ処理が多くのドメインで要求されているため、非識別技術の必要性が高まっている。
本稿では,仕事の投稿に焦点をあてる。
JobStackは、Stackoverflow上のジョブの空白における個人データの非特定のための新しいコーパスである。
本稿では,Long-Short Term Memory(LSTM)モデルとTransformerモデルを比較し,ベースラインを導入する。
これらのベースラインを改善するため,マルチタスク学習によるコンテキスト埋め込みと遠隔関連補助データを用いた実験を行った。
以上の結果から,補助データによる識別性能の向上が示唆された。
驚いたことに、バニラBERTはStackoverflowの他の部分でトレーニングされたBERTモデルよりも効果的であることが判明した。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - AspirinSum: an Aspect-based utility-preserved de-identification Summarization framework [1.9489823192518083]
この提案の目的は、特定のドメインに容易に適応できるテキスト識別フレームワークを開発することである。
本稿では,既存のコメントデータから専門家の側面を整合させることで,アスペクトベースの実用性保護型非識別要約フレームワークAspirinSumを提案する。
特定されていないテキストはデータパブリッシングに使用でき、最終的にはダウンストリームタスク用に識別されていないデータセットを公開します。
論文 参考訳(メタデータ) (2024-06-20T02:29:46Z) - TAROT: A Hierarchical Framework with Multitask Co-Pretraining on
Semi-Structured Data towards Effective Person-Job Fit [60.31175803899285]
本稿では,階層型マルチタスク協調訓練フレームワークであるTAROTを提案する。
TAROTは、プロファイルとジョブにおける半構造化テキストをターゲットにしており、取得したセマンティック情報を各レベルで制限するために、複数のきめ細かい事前訓練タスクと共に保持されている。
論文 参考訳(メタデータ) (2024-01-15T07:57:58Z) - Data-Driven but Privacy-Conscious: Pedestrian Dataset De-identification
via Full-Body Person Synthesis [16.394031759681678]
ペデストリアンデータセットの復号化タスクを動機付け,導入する。
PDIは、所定の非識別法に対して、非識別度とダウンストリームタスクトレーニング性能を評価する。
私たちのデータは、プライバシを意識した方法で、合成から実際のパフォーマンスギャップを狭めることができるかを示します。
論文 参考訳(メタデータ) (2023-06-20T17:39:24Z) - Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - Memorization of Named Entities in Fine-tuned BERT Models [3.0177210416625115]
細調整BERTモデルにおける名前付きエンティティ記憶の程度について検討する。
細調整されたBERTは、事前訓練されたBERTモデルよりも、細調整されたデータセットに特有の名前付きエンティティを生成できないことを示す。
論文 参考訳(メタデータ) (2022-12-07T16:20:50Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z) - Sensitive Data Detection and Classification in Spanish Clinical Text:
Experiments with BERT [0.8379286663107844]
本稿では、BERTに基づくシーケンスラベリングモデルを用いて、スペイン語で匿名化実験を行う。
実験により、汎用ドメイン事前学習を用いた単純なBERTモデルが、ドメイン固有の機能工学を使わずに、非常に競争力のある結果が得られることが示された。
論文 参考訳(メタデータ) (2020-03-06T09:46:51Z) - What BERT Sees: Cross-Modal Transfer for Visual Question Generation [21.640299110619384]
補足データを用いた事前学習を回避して,BERTのアウト・オブ・ザ・ボックスの視覚能力について検討した。
テキスト生成のためのBERTベースのアーキテクチャであるBERT-genを導入する。
論文 参考訳(メタデータ) (2020-02-25T12:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。