論文の概要: Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling
- arxiv url: http://arxiv.org/abs/2409.09831v3
- Date: Wed, 29 Jan 2025 23:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 22:50:03.858728
- Title: Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling
- Title(参考訳): マスケッド言語モデリングを用いた低再同定リスクを有する合成自由テキスト医療記録の生成
- Authors: Samuel Belkadi, Libo Ren, Nicolo Micheletti, Lifeng Han, Goran Nenadic,
- Abstract要約: Masked Language Modeling を用いた合成自由テキスト医療記録生成システムを提案する。
このシステムは、世代ごとの多様性を導入しつつ、重要な医療情報を保存し、再識別リスクを最小限にする。
その結果,HIPAA準拠のPHIリコール率96%,再同定リスク3.5%で高品質な合成データが得られた。
- 参考スコア(独自算出の注目度): 6.193782515824411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vast amount of available medical records has the potential to improve healthcare and biomedical research. However, privacy restrictions make these data accessible for internal use only. Recent works have addressed this problem by generating synthetic data using Causal Language Modeling. Unfortunately, by taking this approach, it is often impossible to guarantee patient privacy while offering the ability to control the diversity of generations without increasing the cost of generating such data. In contrast, we present a system for generating synthetic free-text medical records using Masked Language Modeling. The system preserves critical medical information while introducing diversity in the generations and minimising re-identification risk. The system's size is about 120M parameters, minimising inference cost. The results demonstrate high-quality synthetic data with a HIPAA-compliant PHI recall rate of 96% and a re-identification risk of 3.5%. Moreover, downstream evaluations show that the generated data can effectively train a model with performance comparable to real data.
- Abstract(参考訳): 利用可能な医療記録の膨大な量は、医療と生物医学の研究を改善する可能性がある。
しかし、プライバシーの制限により、これらのデータは内部でのみ利用できるようになる。
最近の研究は、因果言語モデリングを用いて合成データを生成することでこの問題に対処している。
残念ながら、このアプローチを採用することで、そのようなデータを生成するコストを増大させることなく、世代間の多様性を制御する能力を提供しながら、患者のプライバシを保証することは不可能であることが多い。
対照的に、マスケッド言語モデリングを用いて、合成自由テキスト医療記録を生成するシステムを提案する。
このシステムは、世代ごとの多様性を導入しつつ、重要な医療情報を保存し、再識別リスクを最小限にする。
システムのサイズは約120万のパラメータであり、推論コストを最小化している。
その結果,HIPAA準拠のPHIリコール率96%,再同定リスク3.5%で高品質な合成データが得られた。
さらに、下流評価では、生成されたデータが実データに匹敵するパフォーマンスでモデルを効果的に訓練できることが示されている。
関連論文リスト
- A Case Study Exploring the Current Landscape of Synthetic Medical Record Generation with Commercial LLMs [1.1645633237702129]
合成データを生成する商用大規模言語モデルの現状を評価する。
我々の主な発見は、LLMが小さな特徴のサブセットに対して確実に合成された健康記録を生成できる一方で、データの次元が増加するにつれて、現実的な分布と相関を維持するのに苦労していることである。
論文 参考訳(メタデータ) (2025-04-20T15:37:05Z) - Unlocking Potential Binders: Multimodal Pretraining DEL-Fusion for Denoising DNA-Encoded Libraries [51.72836644350993]
マルチモーダルプレトレーニング DEL-Fusion Model (MPDF)
我々は,異なる複合表現とそれらのテキスト記述の対比対象を適用した事前学習タスクを開発する。
本稿では, 原子, 分子, 分子レベルでの複合情報をアマルガメートする新しいDEL融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T17:32:21Z) - Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment of the Risks [7.928574214440075]
本研究では, EHRとNLPを大規模言語モデル(LLM)と統合し, 医療データ管理と患者ケアを改善することを目的とした。
バイオメディカル研究のために、高度なモデルを使用して安全でHIPAAに準拠した合成患者ノートを作成することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-23T04:20:14Z) - Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文 参考訳(メタデータ) (2024-07-22T10:31:07Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Guided Discrete Diffusion for Electronic Health Record Generation [47.129056768385084]
EHRは、病気の進行予測、臨床試験設計、健康経済学と結果研究など、多くの計算医学の応用を可能にする中心的なデータソースである。
幅広いユーザビリティにもかかわらず、その繊細な性質はプライバシーと秘密の懸念を高め、潜在的なユースケースを制限する。
これらの課題に対処するために,人工的かつ現実的なEHRを合成するための生成モデルの利用について検討する。
論文 参考訳(メタデータ) (2024-04-18T16:50:46Z) - Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records [1.338174941551702]
本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。
筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。
このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
論文 参考訳(メタデータ) (2024-03-13T16:17:09Z) - Protect and Extend -- Using GANs for Synthetic Data Generation of
Time-Series Medical Records [1.9749268648715583]
本研究は、認知症患者の時系列合成医療記録を生成するために、現在最先端のGANベースの合成データ生成モデルと比較する。
本実験は,プライバシ保護に関する他のモデルよりも,プライバシ保護GAN(PPGAN)モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-21T10:24:34Z) - Reliable Generation of Privacy-preserving Synthetic Electronic Health Record Time Series via Diffusion Models [4.240899165468488]
電子健康記録(Electronic Health Records, EHRs)は、患者レベルの豊富なデータソースであり、医療データ分析に有用なリソースを提供する。
しかしながら、プライバシー上の懸念はしばしばEHRへのアクセスを制限し、下流の分析を妨げる。
本研究では,現実的かつプライバシに保護された合成ERH時系列を効率的に生成することで,これらの課題を克服することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T18:56:01Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Medical Scientific Table-to-Text Generation with Human-in-the-Loop under
the Data Sparsity Constraint [11.720364723821993]
効率的なテーブル・ツー・テキスト要約システムは、このデータをレポートにまとめる手作業を大幅に減らすことができる。
しかし、実際には、この問題は、正確で信頼性の高い出力を生成するための最先端の自然言語生成モデルの、データポーカリティ、データポーサリティ、および機能不全によって大きく妨げられている。
本稿では, 自動補正, コピー機構, 合成データ拡張によって強化された新しい2段階アーキテクチャを用いて, テーブル・ツー・テキスト・アプローチを提案し, それらの課題に対処する。
論文 参考訳(メタデータ) (2022-05-24T21:10:57Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Fidelity and Privacy of Synthetic Medical Data [0.0]
医療記録のデジタル化は、新時代のビッグデータから臨床科学へとつながった。
個々のレベルの医療データを共有する必要性は増え続けており、これ以上緊急ではない。
ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
論文 参考訳(メタデータ) (2021-01-18T23:01:27Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。