論文の概要: Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation
- arxiv url: http://arxiv.org/abs/2604.27014v1
- Date: Wed, 29 Apr 2026 11:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.720535
- Title: Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation
- Title(参考訳): 健康、多様性、プライバシ:臨床データ拡張のための多次元LCM評価
- Authors: Guillermo Iglesias, Gema Bello-Orgaz, María Navas-Loro, Cristian Ramirez-Atencia, Mercè Salvador Robert, Enrique Baca-Garcia,
- Abstract要約: 高品質なアノテートされた医療データの不足は、堅牢な機械学習モデルをトレーニングする上で重要なボトルネックとなる。
プライバシー規制はデータの共有を制限し、合成データ生成を有望な代替手段にする。
データ拡張パイプラインにおけるLLM(Large Language Models)の使用は、この分野の代替手段として活用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The scarcity of high-quality annotated medical data, particularly in mental health, poses a significant bottleneck for training robust machine learning models. Privacy regulations restrict data sharing, making synthetic data generation a promising alternative. The use of Large Language Models (LLMs) in a data augmentation pipeline could be leveraged as an alternative in this field. In the proposed methodology, DeepSeek-R1, OpenBioLLM-Llama3 and Qwen 3.5 are used to generate synthetic mental health evaluation reports conditioned on specific International Classification of Diseases, Tenth Revision (ICD-10) codes. Because naive text generation can lead to mode collapse or privacy breaches (memorization), a comprehensive evaluation framework is introduced. The generated diagnostic texts are assessed across three dimensions: semantic fidelity, lexical diversity, and privacy/plagiarism. The results demonstrate that all models can generate clinically coherent, diverse, and privacy-safe synthetic reports, significantly expanding the available training data for clinical natural language processing tasks without compromising patient confidentiality.
- Abstract(参考訳): 高品質なアノテートされた医療データの不足、特にメンタルヘルスは、堅牢な機械学習モデルをトレーニングする上で重要なボトルネックとなる。
プライバシー規制はデータの共有を制限し、合成データ生成を有望な代替手段にする。
データ拡張パイプラインにおけるLLM(Large Language Models)の使用は、この分野の代替手段として活用できる。
提案手法では、DeepSeek-R1、OpenBioLLM-Llama3、Qwen 3.5を用いて、特定の国際疾患分類、第10次改訂(ICD-10)コードに基づく総合的なメンタルヘルス評価レポートを生成する。
ナイーブテキスト生成はモード崩壊やプライバシー侵害(記憶)を引き起こす可能性があるため、包括的な評価フレームワークが導入される。
生成された診断テキストは、意味的忠実度、語彙的多様性、プライバシ/プラグマリズムの3つの次元で評価される。
その結果、全てのモデルが臨床に一貫性があり、多様で、プライバシーに配慮した総合的な報告を生成でき、患者の機密性を損なうことなく、臨床自然言語処理タスクのトレーニングデータを大幅に拡張できることが示された。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Revealing Interconnections between Diseases: from Statistical Methods to Large Language Models [0.15558822250482188]
大規模臨床データの手動解析による疾患の相互関係の同定は、労働集約的であり、主観的であり、専門家の意見の不一致を招く。
本研究は,MIMIC-IV EHRのICD-10コードシーケンスとICD-10コードの全セットの2つのデータソースに基づいて,疾患関係を明らかにするための7つのアプローチを評価する。
i)実際の臨床データを用いた統計的共起解析とマスク言語モデリング(MLM)アプローチ,(ii)ドメイン固有のBERT変種,(iii)汎用BERTと文書検索。
論文 参考訳(メタデータ) (2025-10-06T15:09:39Z) - SynLLM: A Comparative Analysis of Large Language Models for Medical Tabular Synthetic Data Generation via Prompt Engineering [1.5020330976600738]
オープンソースのLarge Language Modelsを用いて高品質な合成医療データを生成するためのモジュラーフレームワークであるSynLLMを提案する。
SynLLMは糖尿病, 硬変, ストロークを含む3つの公的医療データセットで評価した。
以上の結果から,プロンプトエンジニアリングがデータ品質とプライバシリスクに大きく影響し,ルールベースのプロンプトが最高のプライバシ品質バランスを達成することが示唆された。
論文 参考訳(メタデータ) (2025-08-11T23:56:42Z) - Generating Synthetic Free-text Medical Records with Low Re-identification Risk using Masked Language Modeling [6.193782515824411]
Masked Language Modeling を用いた合成自由テキスト医療記録生成システムを提案する。
このシステムは、世代ごとの多様性を導入しつつ、重要な医療情報を保存し、再識別リスクを最小限にする。
その結果,HIPAA準拠のPHIリコール率96%,再同定リスク3.5%で高品質な合成データが得られた。
論文 参考訳(メタデータ) (2024-09-15T19:11:01Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language Models [46.32860360019374]
大規模言語モデル(LLM)はこの領域で有望だが、それらの直接的なデプロイはプライバシーの問題につながる可能性がある。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially
Private Generators [74.16405337436213]
我々は、GS-WGAN(Gradient-sanitized Wasserstein Generative Adrial Networks)を提案する。
GS-WGANは、厳格なプライバシー保証を備えた機密データの衛生的な形式での公開を可能にする。
このアプローチは、複数のメトリクスにわたる最先端のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2020-06-15T10:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。