論文の概要: Privacy-Aware, Public-Aligned: Embedding Risk Detection and Public Values into Scalable Clinical Text De-Identification for Trusted Research Environments
- arxiv url: http://arxiv.org/abs/2506.02063v1
- Date: Sun, 01 Jun 2025 17:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.780843
- Title: Privacy-Aware, Public-Aligned: Embedding Risk Detection and Public Values into Scalable Clinical Text De-Identification for Trusted Research Environments
- Title(参考訳): プライバシに配慮したパブリックアライメント:信頼された研究環境におけるリスク検出と公開価値をスケーラブルな臨床テキスト認識に組み込む
- Authors: Arlene Casey, Stuart Dunbar, Franz Gruber, Samuel McInerney, Matúš Falis, Pamela Linksted, Katie Wilde, Kathy Harrison, Alison Hamilton, Christian Cole,
- Abstract要約: 直接的および間接的識別子がレコードタイプ,臨床設定,データフローによってどのように変化するかを示し,ドキュメントの実践の変化が時間とともにモデルのパフォーマンスを低下させるかを示す。
われわれの調査結果は、プライバシーリスクは文脈に依存し、累積的であり、適応的でハイブリッドな非識別アプローチの必要性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical free-text data offers immense potential to improve population health research such as richer phenotyping, symptom tracking, and contextual understanding of patient care. However, these data present significant privacy risks due to the presence of directly or indirectly identifying information embedded in unstructured narratives. While numerous de-identification tools have been developed, few have been tested on real-world, heterogeneous datasets at scale or assessed for governance readiness. In this paper, we synthesise our findings from previous studies examining the privacy-risk landscape across multiple document types and NHS data providers in Scotland. We characterise how direct and indirect identifiers vary by record type, clinical setting, and data flow, and show how changes in documentation practice can degrade model performance over time. Through public engagement, we explore societal expectations around the safe use of clinical free text and reflect these in the design of a prototype privacy-risk management tool to support transparent, auditable decision-making. Our findings highlight that privacy risk is context-dependent and cumulative, underscoring the need for adaptable, hybrid de-identification approaches that combine rule-based precision with contextual understanding. We offer a comprehensive view of the challenges and opportunities for safe, scalable reuse of clinical free-text within Trusted Research Environments and beyond, grounded in both technical evidence and public perspectives on responsible data use.
- Abstract(参考訳): 臨床自由テキストデータは、より豊かな表現型、症状追跡、患者ケアの文脈的理解など、人口健康研究を改善する大きな可能性を秘めている。
しかし、これらのデータは、構造化されていない物語に埋め込まれた情報を直接的または間接的に特定するため、重大なプライバシーリスクを生じさせる。
多数の非識別ツールが開発されているが、現実の、異質なデータセットで大規模にテストされているものや、ガバナンスの準備が整っているものなどはほとんどない。
本稿では,スコットランドの複数の文書タイプおよびNHSデータプロバイダにおけるプライバシーリスクの背景を調べた過去の研究から,我々の知見を合成する。
直接的および間接的識別子がレコードタイプ,臨床設定,データフローによってどのように変化するのかを特徴付けるとともに,ドキュメントの実践の変化が時間とともにモデルのパフォーマンスを低下させるかを示す。
公的な取り組みを通じて、臨床自由テキストの安全利用に関する社会的期待を探求し、透明で監査可能な意思決定を支援するためのプライバシリスク管理ツールのプロトタイプの設計にこれらを反映する。
我々の研究結果は、プライバシーリスクは文脈に依存し、累積的であり、ルールベースの精度と文脈的理解を組み合わせた適応性のあるハイブリッドな非識別アプローチの必要性を浮き彫りにしている。
我々は、信頼できる研究環境等において、安全でスケーラブルな臨床自由テキストの再利用の課題と機会を包括的に把握し、技術的証拠と責任あるデータ使用に関する公的視点の両方に基礎を置いている。
関連論文リスト
- Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。
包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文 参考訳(メタデータ) (2025-05-30T14:42:02Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - DePrompt: Desensitization and Evaluation of Personal Identifiable Information in Large Language Model Prompts [11.883785681042593]
DePromptは、プロンプトのための脱感作保護および有効性評価フレームワークである。
我々は、コンテキスト属性を統合し、プライバシタイプを定義し、高精度なPIIエンティティ識別を実現する。
私たちのフレームワークはプロンプトに適応可能で、テキストのユーザビリティに依存したシナリオに拡張できます。
論文 参考訳(メタデータ) (2024-08-16T02:38:25Z) - Model-Agnostic Utility-Preserving Biometric Information Anonymization [9.413512346732768]
近年のセンサ技術と機械学習技術の急速な進歩は、人々のバイオメトリックスの普遍的な収集と利用を引き起こしている。
生体認証の利用は、本質的なセンシティブな性質と、センシティブな情報を漏洩するリスクが高いため、深刻なプライバシー上の懸念を引き起こしている。
本稿では,生体データに対して,その感度特性を抑え,下流機械学習による解析に関連のある特徴を保持することで,生体データを匿名化できる新しいモダリティ非依存型データ変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T21:21:40Z) - Classifying Cyber-Risky Clinical Notes by Employing Natural Language
Processing [9.77063694539068]
近年、アメリカ合衆国内の一部の州では、患者が臨床ノートに自由にアクセスできるように求めている。
本研究は,臨床ノートにおけるセキュリティ・プライバシリスクの特定方法について検討する。
論文 参考訳(メタデータ) (2022-03-24T00:36:59Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - Epidemic mitigation by statistical inference from contact tracing data [61.04165571425021]
我々は,個人が感染するリスクを推定するためにベイズ推定法を開発した。
本稿では,感染防止のための検査・隔離戦略を最適化するために,確率論的リスク推定手法を提案する。
我々のアプローチは、最近接触した個人間の通信のみを必要とする、完全に分散されたアルゴリズムに変換されます。
論文 参考訳(メタデータ) (2020-09-20T12:24:45Z) - COVI White Paper [67.04578448931741]
接触追跡は、新型コロナウイルスのパンデミックの進行を変える上で不可欠なツールだ。
カナダで開発されたCovid-19の公衆ピアツーピア接触追跡とリスク認識モバイルアプリケーションであるCOVIの理論的、設計、倫理的考察、プライバシ戦略について概説する。
論文 参考訳(メタデータ) (2020-05-18T07:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。