論文の概要: De-Identification of French Unstructured Clinical Notes for Machine
Learning Tasks
- arxiv url: http://arxiv.org/abs/2209.09631v2
- Date: Fri, 6 Oct 2023 14:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 16:20:49.258678
- Title: De-Identification of French Unstructured Clinical Notes for Machine
Learning Tasks
- Title(参考訳): 機械学習タスクのためのフランス語未構造化臨床ノートの同定
- Authors: Yakini Tchouka, Jean-Fran\c{c}ois Couchot, Maxime Coulmeau, David
Laiymani, Philippe Selles, Azzedine Rahmani
- Abstract要約: 本稿では,フランス語の医療文書を包括的に同定する手法を提案する。
このアプローチは、フランスの公立病院のフランス語医療データセットで評価されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unstructured textual data are at the heart of health systems: liaison letters
between doctors, operating reports, coding of procedures according to the
ICD-10 standard, etc. The details included in these documents make it possible
to get to know the patient better, to better manage him or her, to better study
the pathologies, to accurately remunerate the associated medical acts\ldots All
this seems to be (at least partially) within reach of today by artificial
intelligence techniques. However, for obvious reasons of privacy protection,
the designers of these AIs do not have the legal right to access these
documents as long as they contain identifying data. De-identifying these
documents, i.e. detecting and deleting all identifying information present in
them, is a legally necessary step for sharing this data between two
complementary worlds. Over the last decade, several proposals have been made to
de-identify documents, mainly in English. While the detection scores are often
high, the substitution methods are often not very robust to attack. In French,
very few methods are based on arbitrary detection and/or substitution rules. In
this paper, we propose a new comprehensive de-identification method dedicated
to French-language medical documents. Both the approach for the detection of
identifying elements (based on deep learning) and their substitution (based on
differential privacy) are based on the most proven existing approaches. The
result is an approach that effectively protects the privacy of the patients at
the heart of these medical documents. The whole approach has been evaluated on
a French language medical dataset of a French public hospital and the results
are very encouraging.
- Abstract(参考訳): 非構造化テキストデータは、医師間の連絡状、手術報告、ICD-10規格による手続きのコーディングなど、医療システムの中心にある。
これらの文書に含まれている詳細は、患者をよりよく知ることができ、患者をより良く管理し、病理学をより良く研究し、関連する医療行為に正確に報酬を与えることができる。
しかし、プライバシー保護の明白な理由から、これらのaiの設計者は、識別データを含む限り、これらの文書にアクセスする法的権利を持たない。
これらの文書の非識別、すなわちそれらの中のすべての識別情報の検出と削除は、このデータを2つの補完的な世界間で共有するための法的に必要なステップである。
過去10年間で、主に英語で文書を識別するいくつかの提案がなされた。
検出スコアは高いことが多いが、置換法は攻撃にはあまり適さないことが多い。
フランス語では、任意の検出や置換規則に基づく手法はほとんどない。
本稿では,フランス語の医療文書を包括的に識別する手法を提案する。
要素識別(ディープラーニングに基づく)とそれらの置換(差分プライバシに基づく)の2つのアプローチは、最も証明された既存のアプローチに基づいている。
結果は、これらの医療文書の中心にある患者のプライバシーを効果的に保護するアプローチである。
このアプローチは、フランス公立病院のフランス語医療データセットで評価されており、結果は非常に有益である。
関連論文リスト
- Validating transformers for redaction of text from electronic health
records in real-world healthcare [1.561423634851244]
私たちは、トランスフォーマーベースのモデルであるAnonCATを紹介します。
AnonCATは、3つの英国病院からの実際の文書を手動で注釈付けするプロセスを通じて訓練された。
本研究は,グローバル医療データにおけるリアクションの効率と精度を向上させるための深層学習技術の可能性を示すものである。
論文 参考訳(メタデータ) (2023-10-05T19:10:18Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4 [80.36535668574804]
我々は新しいGPT4対応脱識別フレームワーク(DeID-GPT)を開発した。
開発したDeID-GPTは,非構造化医用テキストからの個人情報のマスキングにおいて,高い精度と信頼性を示した。
本研究は,ChatGPTおよびGPT-4を医療用テキストデータ処理および非識別に利用した最初期の1つである。
論文 参考訳(メタデータ) (2023-03-20T11:34:37Z) - An Easy-to-use and Robust Approach for the Differentially Private
De-Identification of Clinical Textual Documents [0.0]
本稿では, より頑健な識別の強化により, 効率よく, 微分的にプライベートな識別方法を実現する方法を示す。
この結果は、フランス語で臨床文書を識別するアプローチであるが、他の言語にも一般化可能である。
論文 参考訳(メタデータ) (2022-11-02T14:25:09Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Automated Drug-Related Information Extraction from French Clinical
Documents: ReLyfe Approach [0.4588028371034407]
本稿では,フランスの臨床検査資料から薬物関連情報を抽出する手法を提案する。
これはルールベースのフェーズとディープラーニングアプローチを組み合わせたものです。
論文 参考訳(メタデータ) (2021-11-29T22:11:23Z) - An Analysis of a BERT Deep Learning Strategy on a Technology Assisted
Review Task [91.3755431537592]
文書検診はEvidenced Based Medicineにおける中心的な課題である。
本稿では,BERT や PubMedBERT を組み込んだ DL 文書分類手法と DL 類似性検索経路を提案する。
2017年と2018年のCLEF eHealth コレクションにおいて,私の DL 戦略の検索の有効性を検証し,評価した。
論文 参考訳(メタデータ) (2021-04-16T19:45:27Z) - Comparing Rule-based, Feature-based and Deep Neural Methods for
De-identification of Dutch Medical Records [4.339510167603376]
オランダの医療機関9施設と3つのドメインのデータをサンプリングし,1260人の医療記録からなる多様なデータセットを構築した。
言語とドメイン間での3つの非識別手法の一般化性をテストする。
論文 参考訳(メタデータ) (2020-01-16T09:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。