論文の概要: A Practical Framework for Evaluating Medical AI Security: Reproducible Assessment of Jailbreaking and Privacy Vulnerabilities Across Clinical Specialties
- arxiv url: http://arxiv.org/abs/2512.08185v1
- Date: Tue, 09 Dec 2025 02:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.789273
- Title: A Practical Framework for Evaluating Medical AI Security: Reproducible Assessment of Jailbreaking and Privacy Vulnerabilities Across Clinical Specialties
- Title(参考訳): 医療AIセキュリティ評価のための実践的枠組み:臨床専門分野における脱獄とプライバシ・脆弱性の再現可能な評価
- Authors: Jinghao Wang, Ping Zhang, Carter Yagemann,
- Abstract要約: 医学大言語モデル (LLMs) は、様々な専門分野にまたがる臨床上の意思決定支援のために、ますます普及している。
既存のセキュリティベンチマークでは、GPUクラスタ、商用APIアクセス、保護されたヘルスデータが必要になる。
本稿では,現実的な資源制約下での医療AIセキュリティを評価するための,実用的で完全に再現可能なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.500745861209774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Large Language Models (LLMs) are increasingly deployed for clinical decision support across diverse specialties, yet systematic evaluation of their robustness to adversarial misuse and privacy leakage remains inaccessible to most researchers. Existing security benchmarks require GPU clusters, commercial API access, or protected health data -- barriers that limit community participation in this critical research area. We propose a practical, fully reproducible framework for evaluating medical AI security under realistic resource constraints. Our framework design covers multiple medical specialties stratified by clinical risk -- from high-risk domains such as emergency medicine and psychiatry to general practice -- addressing jailbreaking attacks (role-playing, authority impersonation, multi-turn manipulation) and privacy extraction attacks. All evaluation utilizes synthetic patient records requiring no IRB approval. The framework is designed to run entirely on consumer CPU hardware using freely available models, eliminating cost barriers. We present the framework specification including threat models, data generation methodology, evaluation protocols, and scoring rubrics. This proposal establishes a foundation for comparative security assessment of medical-specialist models and defense mechanisms, advancing the broader goal of ensuring safe and trustworthy medical AI systems.
- Abstract(参考訳): 医学大言語モデル (LLMs) は、様々な専門分野にわたる臨床上の意思決定支援のためにますます展開されているが、敵の誤用やプライバシーの漏洩に対する頑健さの体系的評価は、ほとんどの研究者にはアクセスできないままである。
既存のセキュリティベンチマークでは、GPUクラスタ、商用APIアクセス、あるいは保護された健康データ -- この重要な研究領域におけるコミュニティの参加を制限する障壁が必要です。我々は、現実的なリソース制約の下で医療AIセキュリティを評価するための、実用的で完全に再現可能なフレームワークを提案します。我々のフレームワーク設計は、緊急医療や精神医学、一般的な実践といったリスクの高い領域から、ジェイルブレイク攻撃(ロールプレイ、権威の不正行為、マルチターン操作)、プライバシ抽出攻撃への対処に至るまで、臨床リスクによって階層化された複数の専門分野をカバーする。
全ての評価は、IRB承認を必要としない合成患者記録を利用する。
このフレームワークは、無償で利用可能なモデルを使用して、コンシューマCPUハードウェアで完全に動作するように設計されており、コスト障壁を排除している。
本稿では、脅威モデル、データ生成手法、評価プロトコル、スコアリングルーブリクスを含むフレームワーク仕様を提案する。
この提案は、医療専門家モデルと防衛メカニズムの比較セキュリティアセスメントの基礎を確立し、安全で信頼性の高い医療AIシステムを保証するというより広い目標を推進している。
関連論文リスト
- Privacy Challenges and Solutions in Retrieval-Augmented Generation-Enhanced LLMs for Healthcare Chatbots: A Review of Applications, Risks, and Future Directions [3.36168223686933]
検索増強世代 (RAG) は, 大規模言語モデルを臨床・生物医療システムに統合するための転換的アプローチとして急速に発展してきた。
このレビューは、医療におけるRAGアプリケーションの現状を詳細に分析する。
論文 参考訳(メタデータ) (2025-11-14T14:33:58Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [48.096652370210016]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare [15.438265972219869]
大規模言語モデル(LLM)は、医療アプリケーションでますます活用されている。
本研究は、7個のLDMの脆弱性を3つの高度なブラックボックスジェイルブレイク技術に系統的に評価する。
論文 参考訳(メタデータ) (2025-01-27T22:07:52Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。