論文の概要: Generation and De-Identification of Indian Clinical Discharge Summaries using LLMs
- arxiv url: http://arxiv.org/abs/2407.05887v1
- Date: Mon, 8 Jul 2024 12:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:50:25.633720
- Title: Generation and De-Identification of Indian Clinical Discharge Summaries using LLMs
- Title(参考訳): LLMを用いたインドにおける臨床用放電装置の生成と同定
- Authors: Sanjeet Singh, Shreya Gupta, Niralee Gupta, Naimish Sharma, Lokesh Srivastava, Vibhu Agarwal, Ashutosh Modi,
- Abstract要約: 近年のデータ漏洩による財務的影響は、1000万ドル近くと推定されている。
個人情報を識別するコンピュータベースのシステムは、データドリフトに対して脆弱である。
- 参考スコア(独自算出の注目度): 3.8895618250348116
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The consequences of a healthcare data breach can be devastating for the patients, providers, and payers. The average financial impact of a data breach in recent months has been estimated to be close to USD 10 million. This is especially significant for healthcare organizations in India that are managing rapid digitization while still establishing data governance procedures that align with the letter and spirit of the law. Computer-based systems for de-identification of personal information are vulnerable to data drift, often rendering them ineffective in cross-institution settings. Therefore, a rigorous assessment of existing de-identification against local health datasets is imperative to support the safe adoption of digital health initiatives in India. Using a small set of de-identified patient discharge summaries provided by an Indian healthcare institution, in this paper, we report the nominal performance of de-identification algorithms (based on language models) trained on publicly available non-Indian datasets, pointing towards a lack of cross-institutional generalization. Similarly, experimentation with off-the-shelf de-identification systems reveals potential risks associated with the approach. To overcome data scarcity, we explore generating synthetic clinical reports (using publicly available and Indian summaries) by performing in-context learning over Large Language Models (LLMs). Our experiments demonstrate the use of generated reports as an effective strategy for creating high-performing de-identification systems with good generalization capabilities.
- Abstract(参考訳): 医療データ漏洩の結果は、患者、提供者、支払者にとって壊滅的な結果になる可能性がある。
データ漏洩による過去数カ月の平均的な金銭的影響は、1000万ドルに近いと推定されている。
これは、迅速なデジタル化を管理しながら、法の書簡と精神に沿うデータガバナンスの手続きを確立しているインドの医療組織にとって、特に重要である。
個人情報を識別するコンピュータベースのシステムは、データドリフトに対して脆弱であり、しばしばクロスインスティテュート環境では効果がない。
したがって、インドにおけるデジタルヘルスイニシアチブの安全な導入を支援するために、地域保健データセットに対する既存の非識別の厳格な評価が不可欠である。
本稿では,インド医療機関が提供した患者退院サマリーの集合を用いて,非インド人データセットをトレーニングした非インド人データセットの識別アルゴリズム(言語モデルに基づく)の名目上の性能について報告し,クロス機関的一般化の欠如を示唆する。
同様に、オフ・ザ・シェルフ・デ・アイデンティティ(英語版)システムによる実験は、アプローチに関連する潜在的なリスクを明らかにする。
データ不足を克服するため,Large Language Models (LLMs) 上でコンテキスト内学習を行うことにより,合成臨床報告(公開およびインドの要約を用いて)の生成を検討する。
本実験は, 優れた一般化機能を有する高性能な非識別システムを構築するための効果的な戦略として, 生成レポートの利用を実証するものである。
関連論文リスト
- MisinfoEval: Generative AI in the Era of "Alternative Facts" [50.069577397751175]
本稿では,大規模言語モデル(LLM)に基づく誤情報介入の生成と評価を行うフレームワークを提案する。
本研究では,(1)誤情報介入の効果を測定するための模擬ソーシャルメディア環境の実験,(2)ユーザの人口動態や信念に合わせたパーソナライズされた説明を用いた第2の実験について述べる。
以上の結果から,LSMによる介入はユーザの行動の修正に極めて有効であることが確認された。
論文 参考訳(メタデータ) (2024-10-13T18:16:50Z) - Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling [6.193782515824411]
Masked Language Modeling (MLM) を用いた合成自由テキスト医療記録を生成するシステムを提案する。
本システムは,重要な多様性を導入し,再識別リスクを最小限に抑えつつ,記録の重要な情報を保存するように設計されている。
論文 参考訳(メタデータ) (2024-09-15T19:11:01Z) - Explainable Machine Learning-Based Security and Privacy Protection Framework for Internet of Medical Things Systems [1.8434042562191815]
インターネット・オブ・メディカル・モノ(IoMT)は、従来の医療境界を超越し、反応性治療から予防への転換を可能にする。
その利点は、処理されたデータの感度と価値のために、ユーザの生活を危険にさらす、重大なセキュリティ上の課題に対処されている。
新しいIDS(Intrusion Detection Systems)フレームワークを導入し、ANN(Artificial Neural Networks)を侵入検知に利用し、FL(Federated Learning)をプライバシ保護に活用する。
論文 参考訳(メタデータ) (2024-03-14T11:57:26Z) - DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4 [80.36535668574804]
我々は新しいGPT4対応脱識別フレームワーク(DeID-GPT)を開発した。
開発したDeID-GPTは,非構造化医用テキストからの個人情報のマスキングにおいて,高い精度と信頼性を示した。
本研究は,ChatGPTおよびGPT-4を医療用テキストデータ処理および非識別に利用した最初期の1つである。
論文 参考訳(メタデータ) (2023-03-20T11:34:37Z) - Epidemic Management and Control Through Risk-Dependent Individual
Contact Interventions [1.1439420412899566]
テスト、接触追跡、隔離(TTI)は、大規模な実装が困難である疫病管理と制御のアプローチである。
ここでは、接触ネットワーク上でデータ同化(DA)を使用するTTIおよび露出通知アプリのスケーラブルな改善を示す。
論文 参考訳(メタデータ) (2021-09-22T18:39:10Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Epidemic mitigation by statistical inference from contact tracing data [61.04165571425021]
我々は,個人が感染するリスクを推定するためにベイズ推定法を開発した。
本稿では,感染防止のための検査・隔離戦略を最適化するために,確率論的リスク推定手法を提案する。
我々のアプローチは、最近接触した個人間の通信のみを必要とする、完全に分散されたアルゴリズムに変換されます。
論文 参考訳(メタデータ) (2020-09-20T12:24:45Z) - COVI White Paper [67.04578448931741]
接触追跡は、新型コロナウイルスのパンデミックの進行を変える上で不可欠なツールだ。
カナダで開発されたCovid-19の公衆ピアツーピア接触追跡とリスク認識モバイルアプリケーションであるCOVIの理論的、設計、倫理的考察、プライバシ戦略について概説する。
論文 参考訳(メタデータ) (2020-05-18T07:40:49Z) - Approximate Nearest Neighbour Search on Privacy-aware Encoding of User
Locations to Identify Susceptible Infections in Simulated Epidemics [13.55844312718721]
感染した人とその位置の一覧から、感染した人のリストをいかに効果的かつ効率的に見つけることができるかを検討する。
感染した人のリストの場所を問合せとして, 近近距離索引付けと検索手法の適用可能性について検討した。
論文 参考訳(メタデータ) (2020-04-19T13:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。