論文の概要: Benchmarking Modern Named Entity Recognition Techniques for Free-text
Health Record De-identification
- arxiv url: http://arxiv.org/abs/2103.13546v1
- Date: Thu, 25 Mar 2021 01:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:43:34.471518
- Title: Benchmarking Modern Named Entity Recognition Techniques for Free-text
Health Record De-identification
- Title(参考訳): フリーテキスト健康記録識別のための最新のエンティティ認識手法のベンチマーク
- Authors: Abdullah Ahmed, Adeel Abbasi, Carsten Eickhoff
- Abstract要約: 連邦法は、保護された健康情報(PHI)を含むEHRデータの共有を制限する。
本研究は, 深層学習に基づく名前付きエンティティ認識(NER)手法を探索し, 識別タスクにおいてどのメソッドがより優れているかを判定する。
i2b2トレーニングデータセットでモデルをトレーニング,テストし,地域病院から収集したEHRデータを用いて,そのパフォーマンスを質的に評価した。
- 参考スコア(独自算出の注目度): 6.026640792312181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic Health Records (EHRs) have become the primary form of medical
data-keeping across the United States. Federal law restricts the sharing of any
EHR data that contains protected health information (PHI). De-identification,
the process of identifying and removing all PHI, is crucial for making EHR data
publicly available for scientific research. This project explores several deep
learning-based named entity recognition (NER) methods to determine which
method(s) perform better on the de-identification task. We trained and tested
our models on the i2b2 training dataset, and qualitatively assessed their
performance using EHR data collected from a local hospital. We found that 1)
BiLSTM-CRF represents the best-performing encoder/decoder combination, 2)
character-embeddings and CRFs tend to improve precision at the price of recall,
and 3) transformers alone under-perform as context encoders. Future work
focused on structuring medical text may improve the extraction of semantic and
syntactic information for the purposes of EHR de-identification.
- Abstract(参考訳): 電子健康記録(ehrs)は、アメリカ合衆国における医療データ保存の主要な形態となっている。
連邦法は、保護された健康情報(PHI)を含むEHRデータの共有を制限する。
すべてのPHIを識別し、除去するプロセスである脱同定は、科学研究のためにEHRデータを公開するために重要である。
本研究は, 深層学習に基づく名前付きエンティティ認識(NER)手法を探索し, 識別タスクにおいてどの手法が優れているかを決定する。
i2b2トレーニングデータセットでモデルをトレーニング,テストし,局所病院から収集したEHRデータを用いて定性的に評価した。
1) BiLSTM-CRFは, 最適なエンコーダ/デコーダの組み合わせであり, 2) 文字埋め込みとCRFはリコール価格で精度を向上する傾向があり, 3) コンテクストエンコーダとしての性能が低いトランスフォーマーのみであることがわかった。
医用テキストの構造化に焦点をあてた今後の研究は、EHRの特定のために意味情報や構文情報の抽出を改善する可能性がある。
関連論文リスト
- DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization [13.038800602897354]
本研究は, 大規模言語モデルを用いて患者を同定し, 臨床記録の再検討を行った。
本手法は, 臨床診断書に適合する患者を同定するために, 大規模言語モデルを用いている。
ClinicalBERTが最も有効であり, マスキングでPIIが同定できたが, 臨床記録の9%は再同定された。
論文 参考訳(メタデータ) (2024-10-22T14:06:31Z) - Sensitive Data Detection with High-Throughput Machine Learning Models in
Electrical Health Records [15.982220037507169]
1996年健康保険ポータビリティ・アンド・アカウンタビリティ法(英: Health Insurance Portability and Accountability Act of 1996, HIPAA)は、厚生労働情報保護法(PHI)である。
この領域における課題の1つは、異なる分野にわたるデータにおけるPHIフィールドの不均一性である。
この可変性は、あるデータベースで動作しているルールベースの機密変数識別システムを別のデータベースでフェールさせる。
論文 参考訳(メタデータ) (2023-04-30T16:14:23Z) - DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4 [80.36535668574804]
我々は新しいGPT4対応脱識別フレームワーク(DeID-GPT)を開発した。
開発したDeID-GPTは,非構造化医用テキストからの個人情報のマスキングにおいて,高い精度と信頼性を示した。
本研究は,ChatGPTおよびGPT-4を医療用テキストデータ処理および非識別に利用した最初期の1つである。
論文 参考訳(メタデータ) (2023-03-20T11:34:37Z) - Rediscovery of CNN's Versatility for Text-based Encoding of Raw
Electronic Health Records [22.203204279166496]
我々は,大容量データを管理可能なサイズに縮小するだけでなく,多種多様な臨床業務を行う患者の中核情報を適切に保存する多目的エンコーダを探索する。
階層的に構造化された畳み込みニューラルネットワーク(CNN)は、多種多様なタスクにおける最先端モデルよりも優れていることが判明した。
論文 参考訳(メタデータ) (2023-03-15T00:37:18Z) - 2021 BEETL Competition: Advancing Transfer Learning for Subject
Independence & Heterogenous EEG Data Sets [89.84774119537087]
我々は、診断とBCI(Brain-Computer-Interface)に関する2つの伝達学習課題を設計する。
第1タスクは、患者全体にわたる自動睡眠ステージアノテーションに対処する医療診断に重点を置いている。
タスク2はBrain-Computer Interface (BCI)に集中しており、被験者とデータセットの両方にわたる運動画像のデコードに対処する。
論文 参考訳(メタデータ) (2022-02-14T12:12:20Z) - EVA: Generating Longitudinal Electronic Health Records Using Conditional
Variational Autoencoders [34.22731849545798]
離散的な EHR の出会いと出会いの特徴を合成するための EHR Variational Autoencoder (EVA) を提案する。
EVAは現実的なシーケンスを生成でき、患者間の個人差を考慮し、特定の疾患条件で条件付けできる。
250,000人以上の患者を含む大規模な現実世界のEHRリポジトリの方法の有用性を評価します。
論文 参考訳(メタデータ) (2020-12-18T02:37:49Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z) - Uncovering the structure of clinical EEG signals with self-supervised
learning [64.4754948595556]
教師付き学習パラダイムは、しばしば利用可能なラベル付きデータの量によって制限される。
この現象は脳波(EEG)などの臨床関連データに特に問題となる。
ラベルのないデータから情報を抽出することで、ディープニューラルネットワークとの競合性能に到達することができるかもしれない。
論文 参考訳(メタデータ) (2020-07-31T14:34:47Z) - MASK: A flexible framework to facilitate de-identification of clinical
texts [2.3015324171336378]
本稿では,MASKというソフトウェアパッケージについて紹介する。
ソフトウェアは、最先端技術を使って名前付きエンティティ認識を実行し、認識されたエンティティをマスクまたは修正することができる。
論文 参考訳(メタデータ) (2020-05-24T08:53:00Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。