論文の概要: Term2Note: Synthesising Differentially Private Clinical Notes from Medical Terms
- arxiv url: http://arxiv.org/abs/2509.10882v1
- Date: Sat, 13 Sep 2025 16:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.829618
- Title: Term2Note: Synthesising Differentially Private Clinical Notes from Medical Terms
- Title(参考訳): ターム2ノート:医学的用語から異なる個人的臨床ノートを合成する
- Authors: Yuping Wu, Viktor Schlegel, Warren Del-Pinto, Srinivasan Nandakumar, Iqra Zahid, Yidan Sun, Usama Farghaly Omar, Amirah Jasmine, Arun-Kumar Kaliya-Perumal, Chun Shen Tham, Gabriel Connors, Anil A Bharath, Goran Nenadic,
- Abstract要約: Term2Note は、DP の強い制約の下で、長い臨床ノートを読むための方法論である。
実際の臨床ノートと密接に一致した統計特性を持つ合成ノートを生成する。
これは、より少ない仮定の下で運用しながら、忠実さと実用性の両方において大幅に改善される。
- 参考スコア(独自算出の注目度): 22.19967672101843
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training data is fundamental to the success of modern machine learning models, yet in high-stakes domains such as healthcare, the use of real-world training data is severely constrained by concerns over privacy leakage. A promising solution to this challenge is the use of differentially private (DP) synthetic data, which offers formal privacy guarantees while maintaining data utility. However, striking the right balance between privacy protection and utility remains challenging in clinical note synthesis, given its domain specificity and the complexity of long-form text generation. In this paper, we present Term2Note, a methodology to synthesise long clinical notes under strong DP constraints. By structurally separating content and form, Term2Note generates section-wise note content conditioned on DP medical terms, with each governed by separate DP constraints. A DP quality maximiser further enhances synthetic notes by selecting high-quality outputs. Experimental results show that Term2Note produces synthetic notes with statistical properties closely aligned with real clinical notes, demonstrating strong fidelity. In addition, multi-label classification models trained on these synthetic notes perform comparably to those trained on real data, confirming their high utility. Compared to existing DP text generation baselines, Term2Note achieves substantial improvements in both fidelity and utility while operating under fewer assumptions, suggesting its potential as a viable privacy-preserving alternative to using sensitive clinical notes.
- Abstract(参考訳): トレーニングデータは、現代の機械学習モデルの成功に不可欠なものだが、医療などの高度な分野において、現実のトレーニングデータの使用は、プライバシーの漏洩に関する懸念によって厳しく制約されている。
この課題に対する有望な解決策は、データユーティリティを維持しながら、正式なプライバシ保証を提供する差分プライベート(DP)合成データを使用することである。
しかし、プライバシ保護とユーティリティの適切なバランスを保つことは、そのドメイン特異性と長文生成の複雑さを考えると、臨床メモ合成において依然として困難である。
本稿では,強いDP制約下での長期臨床ノートの合成手法であるTerm2Noteを提案する。
コンテンツと形式を構造的に分離することにより、Term2NoteはDP医療用語に規定されたセクションワイズノートコンテンツを生成し、それぞれが別々のDP制約によって管理される。
DP品質最大化器は、高品質の出力を選択することにより合成音符をさらに強化する。
実験結果から,Term2Noteは, 臨床検査値と密に一致した統計特性を持つ合成音符を生産し, 高い忠実性を示した。
さらに、これらの合成音符で訓練されたマルチラベル分類モデルは、実データで訓練されたものと同等に動作し、高い有効性を確認する。
既存のDPテキスト生成ベースラインと比較して、Term2Noteは、より少ない前提の下で運用しながら、忠実さと実用性の両方を大幅に改善する。
関連論文リスト
- DP-2Stage: Adapting Language Models as Differentially Private Tabular Data Generators [47.86275136491794]
差分プライベートデータ生成のための2段階微調整フレームワークDP-2Stageを提案する。
実験結果から、このアプローチは様々な設定やメトリクスのパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2024-12-03T14:10:09Z) - Robust Privacy Amidst Innovation with Large Language Models Through a Critical Assessment of the Risks [7.928574214440075]
本研究では, EHRとNLPを大規模言語モデル(LLM)と統合し, 医療データ管理と患者ケアを改善することを目的とした。
バイオメディカル研究のために、高度なモデルを使用して安全でHIPAAに準拠した合成患者ノートを作成することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-23T04:20:14Z) - De-identification is not enough: a comparison between de-identified and synthetic clinical notes [8.506138767850773]
本研究は, 実際の臨床記録の同定が, 会員推測攻撃から記録を保護していないことを示す。
合成されたノートが実際のデータのパフォーマンスと密接に一致する場合、それらは実際のデータと同じようなプライバシー上の懸念を示す。
論文 参考訳(メタデータ) (2024-01-31T21:14:01Z) - Private, fair and accurate: Training large-scale, privacy-preserving AI models in medical imaging [47.99192239793597]
我々は,AIモデルのプライバシ保護トレーニングが,非プライベートトレーニングと比較して精度と公平性に与える影響を評価した。
我々の研究は、実際の臨床データセットの困難な現実的な状況下では、診断深層学習モデルのプライバシー保護トレーニングは、優れた診断精度と公正さで可能であることを示しています。
論文 参考訳(メタデータ) (2023-02-03T09:49:13Z) - Effective and Privacy preserving Tabular Data Synthesizing [0.0]
複雑な分布を持つ多種多様なデータ型をモデル化できる新しい条件付きテーブルGANアーキテクチャを開発した。
我々は、厳格なプライバシー保証でCTAB-GANをトレーニングし、悪意のあるプライバシー攻撃に対してGANをトレーニングするためのセキュリティを強化する。
論文 参考訳(メタデータ) (2021-08-11T13:55:48Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。