論文の概要: Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse
- arxiv url: http://arxiv.org/abs/2303.13451v1
- Date: Thu, 23 Mar 2023 17:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 13:11:11.859252
- Title: Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse
- Title(参考訳): 臨床データウェアハウスにおける文書の偽名化のための自然言語処理アルゴリズムの開発と検証
- Authors: Xavier Tannier, Perceval Wajsb\"urt, Alice Calliger, Basile Dura,
Alexandre Mouchet, Martin Hilka, Romain Bey
- Abstract要約: この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
- 参考スコア(独自算出の注目度): 53.797797404164946
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The objective of this study is to address the critical issue of
de-identification of clinical reports in order to allow access to data for
research purposes, while ensuring patient privacy. The study highlights the
difficulties faced in sharing tools and resources in this domain and presents
the experience of the Greater Paris University Hospitals (AP-HP) in
implementing a systematic pseudonymization of text documents from its Clinical
Data Warehouse. We annotated a corpus of clinical documents according to 12
types of identifying entities, and built a hybrid system, merging the results
of a deep learning model as well as manual rules. Our results show an overall
performance of 0.99 of F1-score. We discuss implementation choices and present
experiments to better understand the effort involved in such a task, including
dataset size, document types, language models, or rule addition. We share
guidelines and code under a 3-Clause BSD license.
- Abstract(参考訳): 本研究の目的は,患者のプライバシを確保しつつ,研究目的でデータにアクセスできるようにするため,臨床報告の非特定という重要な課題に対処することである。
本研究は,本領域におけるツールと資源の共有に直面する困難を浮き彫りにし,臨床データウェアハウスからテキスト文書を体系的に偽名化する際の大パリ大学病院(AP-HP)の経験を紹介する。
われわれは,12種類の識別エンティティに基づいて臨床文書のコーパスを注釈付けし,深層学習モデルと手動ルールを融合したハイブリッドシステムを構築した。
その結果,F1スコアは0.99であった。
我々は、データセットのサイズ、ドキュメントタイプ、言語モデル、ルールの追加など、そのようなタスクに関わる取り組みをより深く理解するための実装選択と実験について論じる。
3つのClause BSDライセンスの下でガイドラインとコードを共有しています。
関連論文リスト
- Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data
Generation with Large Language Models [48.07083163501746]
臨床自然言語処理には、ドメイン固有の課題に対処できる方法が必要である。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - Advancing Italian Biomedical Information Extraction with
Transformers-based Models: Methodological Insights and Multicenter Practical
Application [0.27027468002793437]
インフォメーション抽出は、自動化されたテキストマイニングパイプラインを使用することで、臨床実践者が限界を克服するのに役立つ。
我々は、最初のイタリアの神経心理学的名前付きエンティティ認識データセットであるPsyNITを作成し、それをトランスフォーマーベースのモデルの開発に利用した。
i)一貫性のあるアノテーションプロセスの重要な役割と(ii)古典的なメソッドと“低リソース”なアプローチを組み合わせた微調整戦略です。
論文 参考訳(メタデータ) (2023-06-08T16:15:46Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Comparing Rule-based, Feature-based and Deep Neural Methods for
De-identification of Dutch Medical Records [4.339510167603376]
オランダの医療機関9施設と3つのドメインのデータをサンプリングし,1260人の医療記録からなる多様なデータセットを構築した。
言語とドメイン間での3つの非識別手法の一般化性をテストする。
論文 参考訳(メタデータ) (2020-01-16T09:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。