論文の概要: A Practical Framework for Evaluating Medical AI Security: Reproducible Assessment of Jailbreaking and Privacy Vulnerabilities Across Clinical Specialties
- arxiv url: http://arxiv.org/abs/2512.08185v1
- Date: Tue, 09 Dec 2025 02:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.789273
- Title: A Practical Framework for Evaluating Medical AI Security: Reproducible Assessment of Jailbreaking and Privacy Vulnerabilities Across Clinical Specialties
- Title(参考訳): 医療AIセキュリティ評価のための実践的枠組み:臨床専門分野における脱獄とプライバシ・脆弱性の再現可能な評価
- Authors: Jinghao Wang, Ping Zhang, Carter Yagemann,
- Abstract要約: 医学大言語モデル (LLMs) は、様々な専門分野にまたがる臨床上の意思決定支援のために、ますます普及している。
既存のセキュリティベンチマークでは、GPUクラスタ、商用APIアクセス、保護されたヘルスデータが必要になる。
本稿では,現実的な資源制約下での医療AIセキュリティを評価するための,実用的で完全に再現可能なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.500745861209774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Large Language Models (LLMs) are increasingly deployed for clinical decision support across diverse specialties, yet systematic evaluation of their robustness to adversarial misuse and privacy leakage remains inaccessible to most researchers. Existing security benchmarks require GPU clusters, commercial API access, or protected health data -- barriers that limit community participation in this critical research area. We propose a practical, fully reproducible framework for evaluating medical AI security under realistic resource constraints. Our framework design covers multiple medical specialties stratified by clinical risk -- from high-risk domains such as emergency medicine and psychiatry to general practice -- addressing jailbreaking attacks (role-playing, authority impersonation, multi-turn manipulation) and privacy extraction attacks. All evaluation utilizes synthetic patient records requiring no IRB approval. The framework is designed to run entirely on consumer CPU hardware using freely available models, eliminating cost barriers. We present the framework specification including threat models, data generation methodology, evaluation protocols, and scoring rubrics. This proposal establishes a foundation for comparative security assessment of medical-specialist models and defense mechanisms, advancing the broader goal of ensuring safe and trustworthy medical AI systems.
- Abstract(参考訳): 医学大言語モデル (LLMs) は、様々な専門分野にわたる臨床上の意思決定支援のためにますます展開されているが、敵の誤用やプライバシーの漏洩に対する頑健さの体系的評価は、ほとんどの研究者にはアクセスできないままである。
既存のセキュリティベンチマークでは、GPUクラスタ、商用APIアクセス、あるいは保護された健康データ -- この重要な研究領域におけるコミュニティの参加を制限する障壁が必要です。我々は、現実的なリソース制約の下で医療AIセキュリティを評価するための、実用的で完全に再現可能なフレームワークを提案します。我々のフレームワーク設計は、緊急医療や精神医学、一般的な実践といったリスクの高い領域から、ジェイルブレイク攻撃(ロールプレイ、権威の不正行為、マルチターン操作)、プライバシ抽出攻撃への対処に至るまで、臨床リスクによって階層化された複数の専門分野をカバーする。
全ての評価は、IRB承認を必要としない合成患者記録を利用する。
このフレームワークは、無償で利用可能なモデルを使用して、コンシューマCPUハードウェアで完全に動作するように設計されており、コスト障壁を排除している。
本稿では、脅威モデル、データ生成手法、評価プロトコル、スコアリングルーブリクスを含むフレームワーク仕様を提案する。
この提案は、医療専門家モデルと防衛メカニズムの比較セキュリティアセスメントの基礎を確立し、安全で信頼性の高い医療AIシステムを保証するというより広い目標を推進している。
関連論文リスト
- Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming [23.573537738272595]
本稿では,AI心理療法士と認知影響モデルを備えた模擬患者エージェントを併用する評価フレームワークを提案する。
我々は、この枠組みを6つのAIエージェントを評価する、高インパクトなテストケースであるアルコール使用障害に適用する。
大規模なシミュレーションでは、メンタルヘルス支援にAIを使用する場合、重大な安全性のギャップが明らかになっている。
論文 参考訳(メタデータ) (2026-02-23T15:17:18Z) - Responsible Evaluation of AI for Mental Health [72.85175110624736]
メンタルヘルスケアにおけるAIツールの評価に対する現在のアプローチは、断片化されており、臨床実践、社会的コンテキスト、ファーストハンドのユーザエクスペリエンスと不整合である。
本稿では,臨床の健全性,社会的文脈,公平性を統合した学際的枠組みを導入することにより,責任ある評価を再考する。
論文 参考訳(メタデータ) (2026-01-20T12:55:10Z) - Privacy Challenges and Solutions in Retrieval-Augmented Generation-Enhanced LLMs for Healthcare Chatbots: A Review of Applications, Risks, and Future Directions [3.36168223686933]
検索増強世代 (RAG) は, 大規模言語モデルを臨床・生物医療システムに統合するための転換的アプローチとして急速に発展してきた。
このレビューは、医療におけるRAGアプリケーションの現状を詳細に分析する。
論文 参考訳(メタデータ) (2025-11-14T14:33:58Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [48.096652370210016]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare [15.438265972219869]
大規模言語モデル(LLM)は、医療アプリケーションでますます活用されている。
本研究は、7個のLDMの脆弱性を3つの高度なブラックボックスジェイルブレイク技術に系統的に評価する。
論文 参考訳(メタデータ) (2025-01-27T22:07:52Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - RAISE -- Radiology AI Safety, an End-to-end lifecycle approach [5.829180249228172]
放射線学へのAIの統合は、臨床ケアの供給と効率を改善する機会をもたらす。
モデルが安全性、有効性、有効性の最高基準を満たすことに注力すべきである。
ここで提示されるロードマップは、放射線学におけるデプロイ可能で信頼性があり、安全なAIの達成を早めることを目的としている。
論文 参考訳(メタデータ) (2023-11-24T15:59:14Z) - MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence
using Federated Evaluation [110.31526448744096]
この可能性を解き明かすには、大規模な異種データに対して医療AIモデルの性能を測定する体系的な方法が必要である、と私たちは主張する。
MedPerfは、医療分野で機械学習をベンチマークするためのオープンフレームワークです。
論文 参考訳(メタデータ) (2021-09-29T18:09:41Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。