論文の概要: An Easy-to-use and Robust Approach for the Differentially Private
De-Identification of Clinical Textual Documents
- arxiv url: http://arxiv.org/abs/2211.01147v1
- Date: Wed, 2 Nov 2022 14:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 13:56:34.873752
- Title: An Easy-to-use and Robust Approach for the Differentially Private
De-Identification of Clinical Textual Documents
- Title(参考訳): 臨床用文書の個人識別のための使いやすさとロバストなアプローチ
- Authors: Yakini Tchouka, Jean-Fran\c{c}ois Couchot and David Laiymani
- Abstract要約: 本稿では, より頑健な識別の強化により, 効率よく, 微分的にプライベートな識別方法を実現する方法を示す。
この結果は、フランス語で臨床文書を識別するアプローチであるが、他の言語にも一般化可能である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unstructured textual data is at the heart of healthcare systems. For obvious
privacy reasons, these documents are not accessible to researchers as long as
they contain personally identifiable information. One way to share this data
while respecting the legislative framework (notably GDPR or HIPAA) is, within
the medical structures, to de-identify it, i.e. to detect the personal
information of a person through a Named Entity Recognition (NER) system and
then replacing it to make it very difficult to associate the document with the
person. The challenge is having reliable NER and substitution tools without
compromising confidentiality and consistency in the document. Most of the
conducted research focuses on English medical documents with coarse
substitutions by not benefiting from advances in privacy. This paper shows how
an efficient and differentially private de-identification approach can be
achieved by strengthening the less robust de-identification method and by
adapting state-of-the-art differentially private mechanisms for substitution
purposes. The result is an approach for de-identifying clinical documents in
French language, but also generalizable to other languages and whose robustness
is mathematically proven.
- Abstract(参考訳): 構造化されていないテキストデータは医療システムの中心にある。
明らかなプライバシー上の理由から、これらの文書は、個人を特定できる情報を含む限り、研究者にはアクセスできない。
このデータを立法の枠組み(特にgdprまたはhipaa)を尊重しながら共有する方法の1つは、医療組織内で、名前付きエンティティ認識(ner)システムを介して個人の個人情報を非識別し、その文書と個人を関連付けることが非常に困難となるように置き換えることである。
課題は、ドキュメントの機密性と一貫性を損なうことなく、信頼できるNERと置換ツールを持つことである。
実施された研究の大部分は、プライバシーの進歩の恩恵を受けずに、粗末な置換を伴う英国の医療文書に焦点を当てている。
本稿では,よりロバストな非同定手法の強化と置換目的の微分的非識別機構の適用により,効率的かつ微分的非識別手法を実現する方法を提案する。
この結果は、フランス語で臨床文書を識別するアプローチであるが、他の言語にも一般化可能であり、その堅牢性は数学的に証明されている。
関連論文リスト
- Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4 [80.36535668574804]
我々は新しいGPT4対応脱識別フレームワーク(DeID-GPT)を開発した。
開発したDeID-GPTは,非構造化医用テキストからの個人情報のマスキングにおいて,高い精度と信頼性を示した。
本研究は,ChatGPTおよびGPT-4を医療用テキストデータ処理および非識別に利用した最初期の1つである。
論文 参考訳(メタデータ) (2023-03-20T11:34:37Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - De-Identification of French Unstructured Clinical Notes for Machine
Learning Tasks [0.0]
本稿では,フランス語の医療文書を包括的に同定する手法を提案する。
このアプローチは、フランスの公立病院のフランス語医療データセットで評価されている。
論文 参考訳(メタデータ) (2022-09-16T13:00:47Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Performance of Automatic De-identification Across Different Note Types [0.8399688944263842]
患者のプライバシーと機密性に関する懸念は、研究のための臨床ノートの使用を制限する。
本稿では,ワシントン大学のさまざまなノートに,NeuroNER1と呼ばれる最先端のde-idシステムの性能を示す。
論文 参考訳(メタデータ) (2021-02-17T00:55:40Z) - MASK: A flexible framework to facilitate de-identification of clinical
texts [2.3015324171336378]
本稿では,MASKというソフトウェアパッケージについて紹介する。
ソフトウェアは、最先端技術を使って名前付きエンティティ認識を実行し、認識されたエンティティをマスクまたは修正することができる。
論文 参考訳(メタデータ) (2020-05-24T08:53:00Z) - Comparing Rule-based, Feature-based and Deep Neural Methods for
De-identification of Dutch Medical Records [4.339510167603376]
オランダの医療機関9施設と3つのドメインのデータをサンプリングし,1260人の医療記録からなる多様なデータセットを構築した。
言語とドメイン間での3つの非識別手法の一般化性をテストする。
論文 参考訳(メタデータ) (2020-01-16T09:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。