Fugu-MT 論文翻訳(概要): Generation and De-Identification of Indian Clinical Discharge Summaries using LLMs

論文の概要: Generation and De-Identification of Indian Clinical Discharge Summaries using LLMs

arxiv url: http://arxiv.org/abs/2407.05887v1
Date: Mon, 8 Jul 2024 12:47:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 15:50:25.633720
Title: Generation and De-Identification of Indian Clinical Discharge Summaries using LLMs
Title（参考訳）: LLMを用いたインドにおける臨床用放電装置の生成と同定
Authors: Sanjeet Singh, Shreya Gupta, Niralee Gupta, Naimish Sharma, Lokesh Srivastava, Vibhu Agarwal, Ashutosh Modi,
Abstract要約: 近年のデータ漏洩による財務的影響は、1000万ドル近くと推定されている。個人情報を識別するコンピュータベースのシステムは、データドリフトに対して脆弱である。
参考スコア（独自算出の注目度）: 3.8895618250348116
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The consequences of a healthcare data breach can be devastating for the patients, providers, and payers. The average financial impact of a data breach in recent months has been estimated to be close to USD 10 million. This is especially significant for healthcare organizations in India that are managing rapid digitization while still establishing data governance procedures that align with the letter and spirit of the law. Computer-based systems for de-identification of personal information are vulnerable to data drift, often rendering them ineffective in cross-institution settings. Therefore, a rigorous assessment of existing de-identification against local health datasets is imperative to support the safe adoption of digital health initiatives in India. Using a small set of de-identified patient discharge summaries provided by an Indian healthcare institution, in this paper, we report the nominal performance of de-identification algorithms (based on language models) trained on publicly available non-Indian datasets, pointing towards a lack of cross-institutional generalization. Similarly, experimentation with off-the-shelf de-identification systems reveals potential risks associated with the approach. To overcome data scarcity, we explore generating synthetic clinical reports (using publicly available and Indian summaries) by performing in-context learning over Large Language Models (LLMs). Our experiments demonstrate the use of generated reports as an effective strategy for creating high-performing de-identification systems with good generalization capabilities.
Abstract（参考訳）: 医療データ漏洩の結果は、患者、提供者、支払者にとって壊滅的な結果になる可能性がある。データ漏洩による過去数カ月の平均的な金銭的影響は、1000万ドルに近いと推定されている。これは、迅速なデジタル化を管理しながら、法の書簡と精神に沿うデータガバナンスの手続きを確立しているインドの医療組織にとって、特に重要である。個人情報を識別するコンピュータベースのシステムは、データドリフトに対して脆弱であり、しばしばクロスインスティテュート環境では効果がない。したがって、インドにおけるデジタルヘルスイニシアチブの安全な導入を支援するために、地域保健データセットに対する既存の非識別の厳格な評価が不可欠である。本稿では,インド医療機関が提供した患者退院サマリーの集合を用いて,非インド人データセットをトレーニングした非インド人データセットの識別アルゴリズム(言語モデルに基づく)の名目上の性能について報告し,クロス機関的一般化の欠如を示唆する。同様に、オフ・ザ・シェルフ・デ・アイデンティティ(英語版)システムによる実験は、アプローチに関連する潜在的なリスクを明らかにする。データ不足を克服するため,Large Language Models (LLMs) 上でコンテキスト内学習を行うことにより,合成臨床報告(公開およびインドの要約を用いて)の生成を検討する。本実験は, 優れた一般化機能を有する高性能な非識別システムを構築するための効果的な戦略として, 生成レポートの利用を実証するものである。

関連論文リスト

An Analytical Approach to Privacy and Performance Trade-Offs in Healthcare Data Sharing [1.2179548969182572]
高齢者、頻繁に入院する患者、人種的少数派は、プライバシーの攻撃に弱い。我々は,3つの匿名化手法($k$-anonymity, Zhengらによる手法,MO-OBAMモデル)を評価する。
論文参考訳（メタデータ） (2025-08-25T21:36:47Z)
Privacy-Aware, Public-Aligned: Embedding Risk Detection and Public Values into Scalable Clinical Text De-Identification for Trusted Research Environments [0.0]
直接的および間接的識別子がレコードタイプ,臨床設定,データフローによってどのように変化するかを示し,ドキュメントの実践の変化が時間とともにモデルのパフォーマンスを低下させるかを示す。われわれの調査結果は、プライバシーリスクは文脈に依存し、累積的であり、適応的でハイブリッドな非識別アプローチの必要性を強調している。
論文参考訳（メタデータ） (2025-06-01T17:45:57Z)
Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文参考訳（メタデータ） (2025-05-30T14:42:02Z)
A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文参考訳（メタデータ） (2025-04-28T01:16:27Z)
Design and Implementation of a Scalable Clinical Data Warehouse for Resource-Constrained Healthcare Systems [0.0]
本研究は、リソース制限設定における異種EHR統合のために設計された、スケーラブルでプライバシに制限された臨床データウェアハウスであるNCDWを提案する。このフレームワークは、ICD-11やHL7 FHIRといった標準に適合するように、摂食層を変更することで、開発途上国のさまざまな医療環境に適応することができる。
論文参考訳（メタデータ） (2025-02-23T18:19:30Z)
MisinfoEval: Generative AI in the Era of "Alternative Facts" [50.069577397751175]
本稿では,大規模言語モデル(LLM)に基づく誤情報介入の生成と評価を行うフレームワークを提案する。本研究では,(1)誤情報介入の効果を測定するための模擬ソーシャルメディア環境の実験,(2)ユーザの人口動態や信念に合わせたパーソナライズされた説明を用いた第2の実験について述べる。以上の結果から,LSMによる介入はユーザの行動の修正に極めて有効であることが確認された。
論文参考訳（メタデータ） (2024-10-13T18:16:50Z)
Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling [6.193782515824411]
Masked Language Modeling (MLM) を用いた合成自由テキスト医療記録を生成するシステムを提案する。本システムは,重要な多様性を導入し,再識別リスクを最小限に抑えつつ,記録の重要な情報を保存するように設計されている。
論文参考訳（メタデータ） (2024-09-15T19:11:01Z)
Explainable Machine Learning-Based Security and Privacy Protection Framework for Internet of Medical Things Systems [1.8434042562191815]
インターネット・オブ・メディカル・モノ(IoMT)は、従来の医療境界を超越し、反応性治療から予防への転換を可能にする。その利点は、処理されたデータの感度と価値のために、ユーザの生活を危険にさらす、重大なセキュリティ上の課題に対処されている。新しいIDS(Intrusion Detection Systems)フレームワークを導入し、ANN(Artificial Neural Networks)を侵入検知に利用し、FL(Federated Learning)をプライバシ保護に活用する。
論文参考訳（メタデータ） (2024-03-14T11:57:26Z)
DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4 [80.36535668574804]
我々は新しいGPT4対応脱識別フレームワーク(DeID-GPT)を開発した。開発したDeID-GPTは,非構造化医用テキストからの個人情報のマスキングにおいて,高い精度と信頼性を示した。本研究は,ChatGPTおよびGPT-4を医療用テキストデータ処理および非識別に利用した最初期の1つである。
論文参考訳（メタデータ） (2023-03-20T11:34:37Z)
Epidemic Management and Control Through Risk-Dependent Individual Contact Interventions [1.1439420412899566]
テスト、接触追跡、隔離(TTI)は、大規模な実装が困難である疫病管理と制御のアプローチである。ここでは、接触ネットワーク上でデータ同化(DA)を使用するTTIおよび露出通知アプリのスケーラブルな改善を示す。
論文参考訳（メタデータ） (2021-09-22T18:39:10Z)
Clinical Outcome Prediction from Admission Notes using Self-Supervised Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文参考訳（メタデータ） (2021-02-08T10:26:44Z)
UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。 UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。 UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文参考訳（メタデータ） (2020-10-22T02:28:11Z)
Epidemic mitigation by statistical inference from contact tracing data [61.04165571425021]
我々は,個人が感染するリスクを推定するためにベイズ推定法を開発した。本稿では,感染防止のための検査・隔離戦略を最適化するために,確率論的リスク推定手法を提案する。我々のアプローチは、最近接触した個人間の通信のみを必要とする、完全に分散されたアルゴリズムに変換されます。
論文参考訳（メタデータ） (2020-09-20T12:24:45Z)
COVI White Paper [67.04578448931741]
接触追跡は、新型コロナウイルスのパンデミックの進行を変える上で不可欠なツールだ。カナダで開発されたCovid-19の公衆ピアツーピア接触追跡とリスク認識モバイルアプリケーションであるCOVIの理論的、設計、倫理的考察、プライバシ戦略について概説する。
論文参考訳（メタデータ） (2020-05-18T07:40:49Z)
Approximate Nearest Neighbour Search on Privacy-aware Encoding of User Locations to Identify Susceptible Infections in Simulated Epidemics [13.55844312718721]
感染した人とその位置の一覧から、感染した人のリストをいかに効果的かつ効率的に見つけることができるかを検討する。感染した人のリストの場所を問合せとして, 近近距離索引付けと検索手法の適用可能性について検討した。
論文参考訳（メタデータ） (2020-04-19T13:34:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。