論文の概要: Dutch Named Entity Recognition and De-identification Methods for the
Human Resource Domain
- arxiv url: http://arxiv.org/abs/2106.02287v1
- Date: Fri, 4 Jun 2021 06:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 03:53:48.614556
- Title: Dutch Named Entity Recognition and De-identification Methods for the
Human Resource Domain
- Title(参考訳): オランダにおける人文資源ドメインのエンティティ認識と識別方法
- Authors: Cha\"im van Toledo, Friso van Dijk, Marco Spruit
- Abstract要約: HRドメインの現在のオランダ語テキスト識別手法を4段階で評価した。
BERTje変換器と組み合わせたCoNLL 2002コーパスに基づくNERモデルは、人を抑制するのに最適な組み合わせである。
第2のNER評価は、エンティティの厳密な非識別(人として抑圧されなければならない)と、緩やかな非識別の感覚に関する第3の評価の両方に基づいている。
4番目のステップと最後のステップでは、テキスト内のジョブの認識のために、新しいタイプのNERデータセットがテストされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The human resource (HR) domain contains various types of privacy-sensitive
textual data, such as e-mail correspondence and performance appraisal. Doing
research on these documents brings several challenges, one of them
anonymisation. In this paper, we evaluate the current Dutch text
de-identification methods for the HR domain in four steps. First, by updating
one of these methods with the latest named entity recognition (NER) models. The
result is that the NER model based on the CoNLL 2002 corpus in combination with
the BERTje transformer give the best combination for suppressing persons
(recall 0.94) and locations (recall 0.82). For suppressing gender, DEDUCE is
performing best (recall 0.53). Second NER evaluation is based on both strict
de-identification of entities (a person must be suppressed as a person) and
third evaluation on a loose sense of de-identification (no matter what how a
person is suppressed, as long it is suppressed). In the fourth and last step a
new kind of NER dataset is tested for recognising job titles in texts.
- Abstract(参考訳): ヒューマンリソース(HR)ドメインは、電子メールの対応や性能評価など、プライバシーに敏感なさまざまなテキストデータを含んでいる。
これらの文書の研究にはいくつかの課題があり、そのうちの1つは匿名化である。
本稿では,HRドメインの現在のオランダ語テキスト識別手法を4段階に分けて評価する。
まず、これらのメソッドの1つを最新の名前付きエンティティ認識(NER)モデルで更新する。
その結果、CoNLL 2002コーパスをベースとしたNERモデルとBERTjeトランスフォーマーを組み合わせることで、人や場所の抑制(0.94)に最適な組み合わせが得られる(0.82)。
性別を抑えるため、DDUCEは最善を尽くしている(0.53を思い出す)。
第2のNER評価は、実体の厳格な非識別(人として抑圧されなければならない)と、緩やかな非識別(人がどのように抑圧されているかは、抑圧されている限り)に関する第3の評価の両方に基づいている。
4番目のステップと最後のステップでは、テキスト内のジョブの認識のために、新しいタイプのNERデータセットがテストされる。
関連論文リスト
- RedactBuster: Entity Type Recognition from Redacted Documents [13.172863061928899]
文コンテキストを用いた最初の匿名化モデルであるRedactBusterを提案し、反応テキスト上で名前付きエンティティ認識を行う。
我々はRedactBusterを最も効果的なリアクション技術に対してテストし、公開されているテキスト匿名化ベンチマーク(TAB)を用いて評価する。
その結果,文書の性質やエンティティタイプに関わらず,最大0.985の精度が得られた。
論文 参考訳(メタデータ) (2024-04-19T16:42:44Z) - Robust Few-Shot Named Entity Recognition with Boundary Discrimination
and Correlation Purification [14.998158107063848]
NER (Few-shot named entity recognition) は、既存の知識を活用して、低リソース領域における新しい名前付きエンティティを認識することを目的としている。
境界識別・相関浄化法(BDCP)を用いた頑健な2段連写NER法を提案する。
スパン検出段階では、エンティティ境界判別モジュールを導入して、エンティティスパンを検出するための高度に区別された境界表現空間を提供する。
エンティティタイピング段階では、干渉情報を最小化してエンティティとコンテキストの相関を浄化する。
論文 参考訳(メタデータ) (2023-12-13T08:17:00Z) - A Boundary Offset Prediction Network for Named Entity Recognition [9.885278527023532]
名前付きエンティティ認識(NER)は、名前付きエンティティをテキストで識別し分類することを目的とした自然言語処理の基本的なタスクである。
そこで我々は,NERの新たな手法である境界オフセット予測ネットワーク(BOPN)を提案する。
本手法では,エンティティ型を検出対象として使用する代わりに,エンティティ型とスパン表現を統合して,型認識境界オフセットを生成する。
論文 参考訳(メタデータ) (2023-10-23T05:04:07Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - PromptNER: A Prompting Method for Few-shot Named Entity Recognition via
k Nearest Neighbor Search [56.81939214465558]
本稿では,近距離探索による数発NERの新規プロンプト法であるPromptNERを提案する。
我々は、エンティティカテゴリ情報を含むプロンプトを使用してラベルのプロトタイプを構築する。
Few-NERDデータセットとCrossNERデータセットの広範な実験により,本モデルが最先端手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-05-20T15:47:59Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - Delving into Probabilistic Uncertainty for Unsupervised Domain Adaptive
Person Re-Identification [54.174146346387204]
ドメイン適応型人物再識別のための確率的不確実性誘導プログレッシブラベル精錬(P$2$LR)という手法を提案する。
擬似ラベルの不確実性を測定し、ネットワークトレーニングを容易にする定量的基準を確立する。
本手法はDuke2Marketタスクではベースラインが6.5%,Market2MSMTタスクでは2.5%,最先端手法では2.5%を上回った。
論文 参考訳(メタデータ) (2021-12-28T07:40:12Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving
Text Anonymization [0.48733623015338234]
自動テキスト匿名化システムを開発する研究者や実践者は,その評価手法が,個人を再同定から保護するシステムの能力に本当に反映しているかどうかを慎重に評価すべきである。
本稿では,匿名化手法の技術的性能,匿名化による情報損失,不正文書の非匿名化能力を含む評価基準のセットを提案する。
論文 参考訳(メタデータ) (2021-03-16T18:18:29Z) - Named Entity Recognition without Labelled Data: A Weak Supervision
Approach [23.05371427663683]
本稿では,ラベル付きデータがない場合のNERモデルの学習方法を提案する。
このアプローチは、ターゲットドメインからテキストを自動的にアノテートするために、幅広いラベリング関数に依存している。
シーケンスラベリングモデルは、最終的にこの統一アノテーションに基づいて訓練することができる。
論文 参考訳(メタデータ) (2020-04-30T12:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。