論文の概要: Validating transformers for redaction of text from electronic health
records in real-world healthcare
- arxiv url: http://arxiv.org/abs/2310.04468v1
- Date: Thu, 5 Oct 2023 19:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 18:32:00.105090
- Title: Validating transformers for redaction of text from electronic health
records in real-world healthcare
- Title(参考訳): 現実医療における電子健康記録からのテキスト再アクションのためのトランスフォーマーの検証
- Authors: Zeljko Kraljevic, Anthony Shek, Joshua Au Yeung, Ewart Jonathan
Sheldon, Mohammad Al-Agil, Haris Shuaib, Xi Bai, Kawsar Noor, Anoop D. Shah,
Richard Dobson, James Teo
- Abstract要約: 私たちは、トランスフォーマーベースのモデルであるAnonCATを紹介します。
AnonCATは、3つの英国病院からの実際の文書を手動で注釈付けするプロセスを通じて訓練された。
本研究は,グローバル医療データにおけるリアクションの効率と精度を向上させるための深層学習技術の可能性を示すものである。
- 参考スコア(独自算出の注目度): 1.561423634851244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protecting patient privacy in healthcare records is a top priority, and
redaction is a commonly used method for obscuring directly identifiable
information in text. Rule-based methods have been widely used, but their
precision is often low causing over-redaction of text and frequently not being
adaptable enough for non-standardised or unconventional structures of personal
health information. Deep learning techniques have emerged as a promising
solution, but implementing them in real-world environments poses challenges due
to the differences in patient record structure and language across different
departments, hospitals, and countries.
In this study, we present AnonCAT, a transformer-based model and a blueprint
on how deidentification models can be deployed in real-world healthcare.
AnonCAT was trained through a process involving manually annotated redactions
of real-world documents from three UK hospitals with different electronic
health record systems and 3116 documents. The model achieved high performance
in all three hospitals with a Recall of 0.99, 0.99 and 0.96.
Our findings demonstrate the potential of deep learning techniques for
improving the efficiency and accuracy of redaction in global healthcare data
and highlight the importance of building workflows which not just use these
models but are also able to continually fine-tune and audit the performance of
these algorithms to ensure continuing effectiveness in real-world settings.
This approach provides a blueprint for the real-world use of de-identifying
algorithms through fine-tuning and localisation, the code together with
tutorials is available on GitHub (https://github.com/CogStack/MedCAT).
- Abstract(参考訳): 医療記録における患者のプライバシ保護は最優先事項であり、リアクションはテキストで直接特定可能な情報を隠蔽するための一般的な方法である。
規則に基づく手法は広く用いられてきたが、その精度は低く、テキストの過度な冗長性を引き起こし、非標準的あるいは非慣習的な個人の健康情報構造に適応できないことが多い。
深層学習技術は有望な解決策として現れてきたが、患者の記録構造や言語の違いにより、現実の環境においてそれらを実装することは困難である。
本研究では, トランスフォーマーベースモデルであるAnonCATと, 実世界の医療分野における特定モデルの展開方法に関する青写真を紹介する。
AnonCATは、異なる電子健康記録システムと3116の文書を持つ3つの英国病院の実際の文書を手動で修正するプロセスを通じて訓練された。
このモデルは3つの病院すべてで0.99, 0.99, 0.96のリコールで高い性能を達成した。
本研究は,グローバル医療データにおけるレッドアクションの効率と正確性を向上させるための深層学習手法の可能性を示し,これらのモデルを使用するだけでなく,そのアルゴリズムの性能を継続的に微調整・監査し,実環境における継続効果を確保するワークフロー構築の重要性を強調した。
このアプローチは、微調整とローカライゼーションを通じて、非識別アルゴリズムを現実的に使用するための青写真を提供し、チュートリアルと一緒にコードはGitHubで入手できる(https://github.com/CogStack/MedCAT)。
関連論文リスト
- Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4 [80.36535668574804]
我々は新しいGPT4対応脱識別フレームワーク(DeID-GPT)を開発した。
開発したDeID-GPTは,非構造化医用テキストからの個人情報のマスキングにおいて,高い精度と信頼性を示した。
本研究は,ChatGPTおよびGPT-4を医療用テキストデータ処理および非識別に利用した最初期の1つである。
論文 参考訳(メタデータ) (2023-03-20T11:34:37Z) - De-Identification of French Unstructured Clinical Notes for Machine
Learning Tasks [0.0]
本稿では,フランス語の医療文書を包括的に同定する手法を提案する。
このアプローチは、フランスの公立病院のフランス語医療データセットで評価されている。
論文 参考訳(メタデータ) (2022-09-16T13:00:47Z) - Classifying Unstructured Clinical Notes via Automatic Weak Supervision [17.45660355026785]
クラスラベル記述のみから学習する、一般的な弱教師付きテキスト分類フレームワークを導入する。
我々は、事前訓練された言語モデルとデータプログラミングフレームワークに格納された言語ドメインの知識を活用して、テキストにコードラベルを割り当てる。
論文 参考訳(メタデータ) (2022-06-24T05:55:49Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z) - Comparing Rule-based, Feature-based and Deep Neural Methods for
De-identification of Dutch Medical Records [4.339510167603376]
オランダの医療機関9施設と3つのドメインのデータをサンプリングし,1260人の医療記録からなる多様なデータセットを構築した。
言語とドメイン間での3つの非識別手法の一般化性をテストする。
論文 参考訳(メタデータ) (2020-01-16T09:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。