論文の概要: How to Train Private Clinical Language Models: A Comparative Study of Privacy-Preserving Pipelines for ICD-9 Coding
- arxiv url: http://arxiv.org/abs/2511.14936v1
- Date: Tue, 18 Nov 2025 21:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.542291
- Title: How to Train Private Clinical Language Models: A Comparative Study of Privacy-Preserving Pipelines for ICD-9 Coding
- Title(参考訳): プライベート臨床言語モデルの訓練方法:ICD-9符号化のためのプライバシ保護パイプラインの比較検討
- Authors: Mathieu Dufour, Andrew Duncan,
- Abstract要約: 臨床テキストのリスクに敏感な患者情報を暴露する大規模言語モデル。
DP最適化の急速な進歩にもかかわらず、どのプライバシ保護戦略が効果的かは不明だ。
DP学習教師の知識蒸留はDP-SGDとDP合成データトレーニングの両方に優れる。
- 参考スコア(独自算出の注目度): 0.33148826359547523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models trained on clinical text risk exposing sensitive patient information, yet differential privacy (DP) methods often severely degrade the diagnostic accuracy needed for deployment. Despite rapid progress in DP optimisation and text generation, it remains unclear which privacy-preserving strategy actually works best for clinical language tasks. We present the first systematic head-to-head comparison of four training pipelines for automated diagnostic coding from hospital discharge summaries. All pipelines use identical 1B-parameter models and matched privacy budgets to predict ICD-9 codes. At moderate and relaxed privacy budgets ($\varepsilon \in \{4, 6\}$), knowledge distillation from DP-trained teachers outperforms both direct DP-SGD and DP-synthetic data training, recovering up to 63\% of the non-private performance whilst maintaining strong empirical privacy (membership-inference AUC $\approx$ 0.5). These findings expose large differences in the privacy-utility trade-off across architectures and identify knowledge distillation as the most practical route to privacy-preserving clinical NLP.
- Abstract(参考訳): 臨床テキストのリスクに敏感な患者情報を暴露するが、差分プライバシ(DP)法は、デプロイに必要な診断精度を著しく低下させることが多い。
DP最適化とテキスト生成の急速な進歩にもかかわらず、どのプライバシ保護戦略が臨床言語タスクに最適なのかはいまだ不明である。
病院の退院サマリーから自動診断コーディングを行うための4つの訓練パイプラインを,初めて体系的に比較した。
全てのパイプラインは同一の1Bパラメータモデルを使用し、IDD-9コードを予測するためにプライバシー予算と一致している。
DP-SGDとDP-syntheticデータトレーニングの両方でDP-SGDの知識蒸留は、強い経験的プライバシを維持しつつも、非私的パフォーマンスの最大63%を回復する(メンバーシップ推論AUC $\approx$0.5)。
これらの知見は, 建築におけるプライバシ・ユーティリティ・トレードオフの大きな違いを明らかにし, プライバシ保存臨床NLPへの最も実践的なルートとして知識蒸留を同定した。
関連論文リスト
- Preserving privacy in domain transfer of medical AI models comes at no
performance costs: The integral role of differential privacy [5.025818976218807]
DP-DT(DP-enhanced domain transfer)は, 心肥大, 胸水, 肺炎, 気腫, 健常者の診断に有効であった。
その結果,DP-DTは極めて高いプライバシレベルであっても,非DP-DTと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-06-10T18:41:50Z) - Private, fair and accurate: Training large-scale, privacy-preserving AI models in medical imaging [47.99192239793597]
我々は,AIモデルのプライバシ保護トレーニングが,非プライベートトレーニングと比較して精度と公平性に与える影響を評価した。
我々の研究は、実際の臨床データセットの困難な現実的な状況下では、診断深層学習モデルのプライバシー保護トレーニングは、優れた診断精度と公正さで可能であることを示しています。
論文 参考訳(メタデータ) (2023-02-03T09:49:13Z) - TAN Without a Burn: Scaling Laws of DP-SGD [70.7364032297978]
近年、ディープニューラルネットワーク(DNN)を訓練するための微分プライベートな手法が進歩している。
プライバシ分析とノイズのあるトレーニングの実験的振る舞いを分離し、最小限の計算要件でトレードオフを探索する。
我々は,提案手法をCIFAR-10とImageNetに適用し,特にImageNetの最先端性を,上位1点の精度で向上させる。
論文 参考訳(メタデータ) (2022-10-07T08:44:35Z) - NeuralDP Differentially private neural networks by design [61.675604648670095]
ニューラルネットワーク内のいくつかの層の活性化を民営化する手法であるNeuralDPを提案する。
本研究では,DP-SGDと比較して,プライバシーとユーティリティのトレードオフを大幅に改善した2つのデータセットを実験的に検証した。
論文 参考訳(メタデータ) (2021-07-30T12:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。