論文の概要: Which anonymization technique is best for which NLP task? -- It depends.
A Systematic Study on Clinical Text Processing
- arxiv url: http://arxiv.org/abs/2209.00262v1
- Date: Thu, 1 Sep 2022 07:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:42:39.776001
- Title: Which anonymization technique is best for which NLP task? -- It depends.
A Systematic Study on Clinical Text Processing
- Title(参考訳): どの匿名化技術がどのNLPタスクに最適なのか?
--依拠する。
臨床テキスト処理に関する体系的研究
- Authors: Iyadh Ben Cheikh Larbi and Aljoscha Burchardt and Roland Roller
- Abstract要約: 本稿では,異なる匿名化手法がMLモデルの性能に与える影響について検討する。
この研究は、特に強力な匿名化技術がパフォーマンスを著しく低下させることを確認した。
提案手法の多くは類似性探索に基づく再識別攻撃に対して安全ではない。
- 参考スコア(独自算出の注目度): 0.0017646262965516947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical text processing has gained more and more attention in recent years.
The access to sensitive patient data, on the other hand, is still a big
challenge, as text cannot be shared without legal hurdles and without removing
personal information. There are many techniques to modify or remove patient
related information, each with different strengths. This paper investigates the
influence of different anonymization techniques on the performance of ML models
using multiple datasets corresponding to five different NLP tasks. Several
learnings and recommendations are presented. This work confirms that
particularly stronger anonymization techniques lead to a significant drop of
performance. In addition to that, most of the presented techniques are not
secure against a re-identification attack based on similarity search.
- Abstract(参考訳): 近年,臨床テキスト処理が注目されている。
一方、機密性の高い患者データへのアクセスは、法的ハードルや個人情報の削除なしには、テキストを共有できないため、依然として大きな課題である。
患者関連情報を修正または削除する技法は数多くあり、それぞれに強みがある。
本稿では,5つの異なるNLPタスクに対応する複数のデータセットを用いて,異なる匿名化手法がMLモデルの性能に与える影響について検討する。
いくつかの学びとレコメンデーションが提示される。
この研究は、特に強力な匿名化技術がパフォーマンスを著しく低下させることを確認した。
さらに,提案手法の多くは類似性探索に基づく再識別攻撃に対して安全ではない。
関連論文リスト
- Person Re-ID through Unsupervised Hypergraph Rank Selection and Fusion [2.4366811507669124]
Person Re-IDは多くのカメラ監視アプリケーションにおいて基本的な重要性がある。
近年の研究では、再ランク付け手法は大きな利益を得られることが示されている。
本稿では,異なる人物のRe-IDランクの相補性を活用できる多様体ランクアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T16:47:27Z) - Disguise without Disruption: Utility-Preserving Face De-Identification [40.484745636190034]
本研究では,修正データの利用性を確保しつつ,顔画像をシームレスに識別する新しいアルゴリズムであるDisguiseを紹介する。
本手法は, 難読化と非可逆性を最大化するために, 変分機構を用いて生成した合成物を用いて, 描写されたアイデンティティを抽出し置換することを含む。
提案手法を複数のデータセットを用いて広範に評価し,様々な下流タスクにおける従来の手法と比較して,高い非識別率と一貫性を示す。
論文 参考訳(メタデータ) (2023-03-23T13:50:46Z) - Learning to Imagine: Diversify Memory for Incremental Learning using
Unlabeled Data [69.30452751012568]
本研究では,多様な特徴を適応的に生成することで,経験を多様化する学習可能な特徴生成装置を開発する。
生成したサンプルを前例とセマンティックに整合させるために,意味的コントラスト学習を導入する。
提案手法は, 余分な推論コストを伴わず, 2つのベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-04-19T15:15:18Z) - CGUA: Context-Guided and Unpaired-Assisted Weakly Supervised Person
Search [54.106662998673514]
本稿では,コンテキストガイドとアンペア支援(CGUA)を弱教師付き人物検索フレームワークとして導入する。
具体的には、クラスタリングプロセスにおけるコンテキスト情報を活用する新しいコンテキストガイドクラスタ(CGC)アルゴリズムを提案する。
本手法は,より多様なラベル付きデータを活用することにより,最先端の教師付き手法に匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T13:57:30Z) - Investigation on Data Adaptation Techniques for Neural Named Entity
Recognition [51.88382864759973]
一般的な実践は、大きなモノリンガルなラベルなしコーパスを使用することである。
もう一つの一般的なテクニックは、オリジナルのラベル付きデータから合成データを作成することである。
本研究では,これらの2つの手法が3つの異なる名前付きエンティティ認識タスクの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2021-10-12T11:06:03Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - De-identification of Privacy-related Entities in Job Postings [10.751883216434717]
身元特定は、人物名、電子メール、連絡先データなどのプライバシー関連エンティティをテキストで検出するタスクである。
JobStackは、Stackoverflow上のジョブの空白における個人データの非特定のための新しいコーパスである。
論文 参考訳(メタデータ) (2021-05-24T12:01:22Z) - $k$-Anonymity in Practice: How Generalisation and Suppression Affect
Machine Learning Classifiers [2.4282642968872037]
機械学習モデルの結果に異なる$k$匿名化アルゴリズムが与える影響について検討する。
我々の体系的評価は、より強い$k$匿名性制約により、分類性能は一般的に低下することを示している。
モンドリアンは、その後の分類において最も魅力的な性質を持つ方法とみなすことができる。
論文 参考訳(メタデータ) (2021-02-09T11:28:20Z) - DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。
2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。
トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。
手動でラベルをクリーニングするには 人的努力が要る 特に何百万もの画像と何千ものIDがある時は
論文 参考訳(メタデータ) (2021-01-14T01:59:52Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。