論文の概要: Which anonymization technique is best for which NLP task? -- It depends.
A Systematic Study on Clinical Text Processing
- arxiv url: http://arxiv.org/abs/2209.00262v1
- Date: Thu, 1 Sep 2022 07:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:42:39.776001
- Title: Which anonymization technique is best for which NLP task? -- It depends.
A Systematic Study on Clinical Text Processing
- Title(参考訳): どの匿名化技術がどのNLPタスクに最適なのか?
--依拠する。
臨床テキスト処理に関する体系的研究
- Authors: Iyadh Ben Cheikh Larbi and Aljoscha Burchardt and Roland Roller
- Abstract要約: 本稿では,異なる匿名化手法がMLモデルの性能に与える影響について検討する。
この研究は、特に強力な匿名化技術がパフォーマンスを著しく低下させることを確認した。
提案手法の多くは類似性探索に基づく再識別攻撃に対して安全ではない。
- 参考スコア(独自算出の注目度): 0.0017646262965516947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical text processing has gained more and more attention in recent years.
The access to sensitive patient data, on the other hand, is still a big
challenge, as text cannot be shared without legal hurdles and without removing
personal information. There are many techniques to modify or remove patient
related information, each with different strengths. This paper investigates the
influence of different anonymization techniques on the performance of ML models
using multiple datasets corresponding to five different NLP tasks. Several
learnings and recommendations are presented. This work confirms that
particularly stronger anonymization techniques lead to a significant drop of
performance. In addition to that, most of the presented techniques are not
secure against a re-identification attack based on similarity search.
- Abstract(参考訳): 近年,臨床テキスト処理が注目されている。
一方、機密性の高い患者データへのアクセスは、法的ハードルや個人情報の削除なしには、テキストを共有できないため、依然として大きな課題である。
患者関連情報を修正または削除する技法は数多くあり、それぞれに強みがある。
本稿では,5つの異なるNLPタスクに対応する複数のデータセットを用いて,異なる匿名化手法がMLモデルの性能に与える影響について検討する。
いくつかの学びとレコメンデーションが提示される。
この研究は、特に強力な匿名化技術がパフォーマンスを著しく低下させることを確認した。
さらに,提案手法の多くは類似性探索に基づく再識別攻撃に対して安全ではない。
関連論文リスト
- Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - Unlocking the Potential of Large Language Models for Clinical Text Anonymization: A Comparative Study [4.1692340552627405]
自動臨床テキスト匿名化は、二次的使用のためにテキスト健康データを広く共有する可能性を秘めている。
文学において多くの複雑で理論的に成功した匿名化解の提案にもかかわらず、これらの手法は依然として欠陥がある。
LLM(Large Language Models)の開発における最近の進歩は、この分野をさらに発展させる有望な機会となる。
論文 参考訳(メタデータ) (2024-05-29T23:07:58Z) - RedactBuster: Entity Type Recognition from Redacted Documents [13.172863061928899]
文コンテキストを用いた最初の匿名化モデルであるRedactBusterを提案し、反応テキスト上で名前付きエンティティ認識を行う。
我々はRedactBusterを最も効果的なリアクション技術に対してテストし、公開されているテキスト匿名化ベンチマーク(TAB)を用いて評価する。
その結果,文書の性質やエンティティタイプに関わらず,最大0.985の精度が得られた。
論文 参考訳(メタデータ) (2024-04-19T16:42:44Z) - Disguise without Disruption: Utility-Preserving Face De-Identification [40.484745636190034]
本研究では,修正データの利用性を確保しつつ,顔画像をシームレスに識別する新しいアルゴリズムであるDisguiseを紹介する。
本手法は, 難読化と非可逆性を最大化するために, 変分機構を用いて生成した合成物を用いて, 描写されたアイデンティティを抽出し置換することを含む。
提案手法を複数のデータセットを用いて広範に評価し,様々な下流タスクにおける従来の手法と比較して,高い非識別率と一貫性を示す。
論文 参考訳(メタデータ) (2023-03-23T13:50:46Z) - Learning to Imagine: Diversify Memory for Incremental Learning using
Unlabeled Data [69.30452751012568]
本研究では,多様な特徴を適応的に生成することで,経験を多様化する学習可能な特徴生成装置を開発する。
生成したサンプルを前例とセマンティックに整合させるために,意味的コントラスト学習を導入する。
提案手法は, 余分な推論コストを伴わず, 2つのベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-04-19T15:15:18Z) - CGUA: Context-Guided and Unpaired-Assisted Weakly Supervised Person
Search [54.106662998673514]
本稿では,コンテキストガイドとアンペア支援(CGUA)を弱教師付き人物検索フレームワークとして導入する。
具体的には、クラスタリングプロセスにおけるコンテキスト情報を活用する新しいコンテキストガイドクラスタ(CGC)アルゴリズムを提案する。
本手法は,より多様なラベル付きデータを活用することにより,最先端の教師付き手法に匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T13:57:30Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - $k$-Anonymity in Practice: How Generalisation and Suppression Affect
Machine Learning Classifiers [2.4282642968872037]
機械学習モデルの結果に異なる$k$匿名化アルゴリズムが与える影響について検討する。
我々の体系的評価は、より強い$k$匿名性制約により、分類性能は一般的に低下することを示している。
モンドリアンは、その後の分類において最も魅力的な性質を持つ方法とみなすことができる。
論文 参考訳(メタデータ) (2021-02-09T11:28:20Z) - DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。
2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。
トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。
手動でラベルをクリーニングするには 人的努力が要る 特に何百万もの画像と何千ものIDがある時は
論文 参考訳(メタデータ) (2021-01-14T01:59:52Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。