論文の概要: MedPriv-Bench: Benchmarking the Privacy-Utility Trade-off of Large Language Models in Medical Open-End Question Answering
- arxiv url: http://arxiv.org/abs/2603.14265v1
- Date: Sun, 15 Mar 2026 07:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.708686
- Title: MedPriv-Bench: Benchmarking the Privacy-Utility Trade-off of Large Language Models in Medical Open-End Question Answering
- Title(参考訳): MedPriv-Bench: 医療用オープンエンド質問回答における大規模言語モデルのプライバシとユーティリティのトレードオフのベンチマーク
- Authors: Shaowei Guan, Yu Zhai, Hin Chi Kwok, Jiawei Du, Xinyu Feng, Jing Li, Harry Qin, Vivian Hui,
- Abstract要約: オープンエンド質問応答におけるプライバシ臨床的有用性を評価するために設計された最初のベンチマークであるMed-Benchを紹介する。
われわれのフレームワークは、マルチエージェントのヒューマン・イン・ザ・ループパイプラインを使用して、繊細な医療状況と、リアルなプライバシー圧力を生み出す臨床的に関連するクエリを合成する。
本研究は,プライバシに敏感な環境下での医療AIシステムの安全性と有効性を評価するための,ドメイン固有のベンチマークの必要性を明らかにするものである。
- 参考スコア(独自算出の注目度): 15.468900582717865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Retrieval-Augmented Generation (RAG) have enabled large language models (LLMs) to ground outputs in clinical evidence. However, connecting LLMs with external databases introduces the risk of contextual leakage: a subtle privacy threat where unique combinations of medical details enable patient re-identification even without explicit identifiers. Current benchmarks in healthcare heavily focus on accuracy, ignoring such privacy issues, despite strict regulations like Health Insurance Portability and Accountability Act (HIPAA) and General Data Protection Regulation (GDPR). To fill this gap, we present MedPriv-Bench, the first benchmark specifically designed to jointly evaluate privacy preservation and clinical utility in medical open-ended question answering. Our framework utilizes a multi-agent, human-in-the-loop pipeline to synthesize sensitive medical contexts and clinically relevant queries that create realistic privacy pressure. We establish a standardized evaluation protocol leveraging a pre-trained RoBERTa-Natural Language Inference (NLI) model as an automated judge to quantify data leakage, achieving an average of 85.9% alignment with human experts. Through an extensive evaluation of 9 representative LLMs, we demonstrate a pervasive privacy-utility trade-off. Our findings underscore the necessity of domain-specific benchmarks to validate the safety and efficacy of medical AI systems in privacy-sensitive environments.
- Abstract(参考訳): 近年のRAG(Retrieval-Augmented Generation)の進歩により,大規模言語モデル(LLMs)が臨床証拠のアウトプットを確定した。
しかし、LCMを外部データベースに接続すると、コンテキストリークのリスクが生じる: 医学的詳細のユニークな組み合わせによって、明示的な識別子がなくても、患者の再識別が可能になる微妙なプライバシー上の脅威。
現在の医療ベンチマークでは、健康保険ポータビリティと説明責任法(HIPAA)やGDPR(General Data Protection Regulation)といった厳格な規制にもかかわらず、そのようなプライバシー問題を無視して、正確性に重点を置いている。
このギャップを埋めるために、医用オープンエンド質問応答におけるプライバシー保護と臨床的有用性を共同で評価するための最初のベンチマークであるMedPriv-Benchを紹介する。
われわれのフレームワークは、マルチエージェントのヒューマン・イン・ザ・ループパイプラインを使用して、繊細な医療状況と、リアルなプライバシー圧力を生み出す臨床的に関連するクエリを合成する。
我々は、事前訓練されたRoBERTa-Natural Language Inference (NLI)モデルを自動判断として活用し、データ漏洩を定量化し、人間の専門家と平均85.9%のアライメントを達成するための標準化された評価プロトコルを確立する。
9つの LLM を広範囲に評価することにより,広範にわたるプライバシ・ユーティリティのトレードオフを実証する。
本研究は,プライバシに敏感な環境下での医療AIシステムの安全性と有効性を評価するための,ドメイン固有のベンチマークの必要性を明らかにするものである。
関連論文リスト
- A Practical Framework for Evaluating Medical AI Security: Reproducible Assessment of Jailbreaking and Privacy Vulnerabilities Across Clinical Specialties [11.500745861209774]
医学大言語モデル (LLMs) は、様々な専門分野にまたがる臨床上の意思決定支援のために、ますます普及している。
既存のセキュリティベンチマークでは、GPUクラスタ、商用APIアクセス、保護されたヘルスデータが必要になる。
本稿では,現実的な資源制約下での医療AIセキュリティを評価するための,実用的で完全に再現可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T02:28:15Z) - Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data [15.916549580598462]
大きな言語モデル(LLM)は例外的な性能を示すが、かなりのプライバシーリスクを引き起こす。
選択的知識学習のための階層的二重ストラテジーフレームワークを提案する。
当社のフレームワークは、パラメータの0.1%しか変更することなく、堅牢なプライバシ保証を維持しています。
論文 参考訳(メタデータ) (2025-11-23T15:28:19Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [48.096652370210016]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - Privacy-Aware, Public-Aligned: Embedding Risk Detection and Public Values into Scalable Clinical Text De-Identification for Trusted Research Environments [0.0]
直接的および間接的識別子がレコードタイプ,臨床設定,データフローによってどのように変化するかを示し,ドキュメントの実践の変化が時間とともにモデルのパフォーマンスを低下させるかを示す。
われわれの調査結果は、プライバシーリスクは文脈に依存し、累積的であり、適応的でハイブリッドな非識別アプローチの必要性を強調している。
論文 参考訳(メタデータ) (2025-06-01T17:45:57Z) - Differentially Private Distributed Inference [2.4401219403555814]
臨床試験に協力する医療センターは、知識共有と機密データ保護のバランスを取る必要がある。
情報漏洩を制御するために差分プライバシー(DP)を用いてこの問題に対処する。
エージェントはログリニアルールを通じて信条統計を更新し、DPノイズは信頼性の高い識別性と厳格な性能保証を提供する。
論文 参考訳(メタデータ) (2024-02-13T01:38:01Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。