論文の概要: DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4
- arxiv url: http://arxiv.org/abs/2303.11032v2
- Date: Thu, 21 Dec 2023 16:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 19:21:20.565926
- Title: DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4
- Title(参考訳): DeID-GPT:GPT-4によるゼロショット医療用テキストの同定
- Authors: Zhengliang Liu, Yue Huang, Xiaowei Yu, Lu Zhang, Zihao Wu, Chao Cao,
Haixing Dai, Lin Zhao, Yiwei Li, Peng Shu, Fang Zeng, Lichao Sun, Wei Liu,
Dinggang Shen, Quanzheng Li, Tianming Liu, Dajiang Zhu, Xiang Li
- Abstract要約: 我々は新しいGPT4対応脱識別フレームワーク(DeID-GPT)を開発した。
開発したDeID-GPTは,非構造化医用テキストからの個人情報のマスキングにおいて,高い精度と信頼性を示した。
本研究は,ChatGPTおよびGPT-4を医療用テキストデータ処理および非識別に利用した最初期の1つである。
- 参考スコア(独自算出の注目度): 80.36535668574804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The digitization of healthcare has facilitated the sharing and re-using of
medical data but has also raised concerns about confidentiality and privacy.
HIPAA (Health Insurance Portability and Accountability Act) mandates removing
re-identifying information before the dissemination of medical records. Thus,
effective and efficient solutions for de-identifying medical data, especially
those in free-text forms, are highly needed. While various computer-assisted
de-identification methods, including both rule-based and learning-based, have
been developed and used in prior practice, such solutions still lack
generalizability or need to be fine-tuned according to different scenarios,
significantly imposing restrictions in wider use. The advancement of large
language models (LLM), such as ChatGPT and GPT-4, have shown great potential in
processing text data in the medical domain with zero-shot in-context learning,
especially in the task of privacy protection, as these models can identify
confidential information by their powerful named entity recognition (NER)
capability. In this work, we developed a novel GPT4-enabled de-identification
framework (``DeID-GPT") to automatically identify and remove the identifying
information. Compared to existing commonly used medical text data
de-identification methods, our developed DeID-GPT showed the highest accuracy
and remarkable reliability in masking private information from the unstructured
medical text while preserving the original structure and meaning of the text.
This study is one of the earliest to utilize ChatGPT and GPT-4 for medical text
data processing and de-identification, which provides insights for further
research and solution development on the use of LLMs such as ChatGPT/GPT-4 in
healthcare. Codes and benchmarking data information are available at
https://github.com/yhydhx/ChatGPT-API.
- Abstract(参考訳): 医療データのデジタル化は、医療データの共有と再利用を促進する一方で、機密性やプライバシーに関する懸念も提起している。
HIPAA (Health Insurance Portability and Accountability Act) は、医療記録の拡散前に再識別情報を削除することを義務付けている。
したがって、医療データ、特に自由テキスト形式のデータを識別するための効率的かつ効率的なソリューションが必要である。
ルールベースと学習ベースの両方を含む様々なコンピュータ支援の非識別手法が従来から開発・使用されてきたが、これらのソリューションは依然として一般化性に欠けており、様々なシナリオに応じて微調整する必要がある。
chatgptやgpt-4といった大規模言語モデル(llm)の進歩は、医療領域におけるテキストデータをゼロショットのインコンテキスト学習で処理する上で、特にプライバシ保護のタスクにおいて、その強力な名前付きエンティティ認識(ner)能力によって機密情報を識別できるため、大きな可能性を秘めている。
本研究では,識別情報を自動的に識別・削除する新しいGPT4対応脱識別フレームワーク (`DeID-GPT) を開発した。
既存の医用テキストデータ復号化手法と比較して,本研究で開発されたDeID-GPTは,原文の構造と意味を保ちながら,非構造化医用テキストから個人情報を隠蔽する上で,最も正確かつ顕著な信頼性を示した。
本研究は, chatgpt や gpt-4 を医療用テキストデータ処理や非識別に活用した最初期の例であり, chatgpt/gpt-4 などの llm の使用に関するさらなる研究とソリューション開発への洞察を提供する。
コードとベンチマークデータ情報はhttps://github.com/yhydhx/ChatGPT-APIで公開されている。
関連論文リスト
- FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。
FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文 参考訳(メタデータ) (2024-08-17T15:18:56Z) - Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment of the Risks [7.928574214440075]
本研究では, EHRとNLPを大規模言語モデル(LLM)と統合し, 医療データ管理と患者ケアを改善することを目的とした。
バイオメディカル研究のために、高度なモデルを使用して安全でHIPAAに準拠した合成患者ノートを作成することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-23T04:20:14Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - An Easy-to-use and Robust Approach for the Differentially Private
De-Identification of Clinical Textual Documents [0.0]
本稿では, より頑健な識別の強化により, 効率よく, 微分的にプライベートな識別方法を実現する方法を示す。
この結果は、フランス語で臨床文書を識別するアプローチであるが、他の言語にも一般化可能である。
論文 参考訳(メタデータ) (2022-11-02T14:25:09Z) - De-Identification of French Unstructured Clinical Notes for Machine
Learning Tasks [0.0]
本稿では,フランス語の医療文書を包括的に同定する手法を提案する。
このアプローチは、フランスの公立病院のフランス語医療データセットで評価されている。
論文 参考訳(メタデータ) (2022-09-16T13:00:47Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - MASK: A flexible framework to facilitate de-identification of clinical
texts [2.3015324171336378]
本稿では,MASKというソフトウェアパッケージについて紹介する。
ソフトウェアは、最先端技術を使って名前付きエンティティ認識を実行し、認識されたエンティティをマスクまたは修正することができる。
論文 参考訳(メタデータ) (2020-05-24T08:53:00Z) - Comparing Rule-based, Feature-based and Deep Neural Methods for
De-identification of Dutch Medical Records [4.339510167603376]
オランダの医療機関9施設と3つのドメインのデータをサンプリングし,1260人の医療記録からなる多様なデータセットを構築した。
言語とドメイン間での3つの非識別手法の一般化性をテストする。
論文 参考訳(メタデータ) (2020-01-16T09:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。