論文の概要: Medical Malice: A Dataset for Context-Aware Safety in Healthcare LLMs
- arxiv url: http://arxiv.org/abs/2511.21757v1
- Date: Mon, 24 Nov 2025 11:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.214204
- Title: Medical Malice: A Dataset for Context-Aware Safety in Healthcare LLMs
- Title(参考訳): 医療用マライス : 医療用LLMにおけるコンテキストアウェア・セーフティのためのデータセット
- Authors: Andrew Maranhão Ventura D'addario,
- Abstract要約: この研究は、普遍的な安全性からコンテキスト認識の安全性へのシフトを提唱している。
高度な医療環境に固有の、曖昧で体系的な脅威に対して、AIを免疫するために必要なリソースを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Large Language Models (LLMs) into healthcare demands a safety paradigm rooted in \textit{primum non nocere}. However, current alignment techniques rely on generic definitions of harm that fail to capture context-dependent violations, such as administrative fraud and clinical discrimination. To address this, we introduce Medical Malice: a dataset of 214,219 adversarial prompts calibrated to the regulatory and ethical complexities of the Brazilian Unified Health System (SUS). Crucially, the dataset includes the reasoning behind each violation, enabling models to internalize ethical boundaries rather than merely memorizing a fixed set of refusals. Using an unaligned agent (Grok-4) within a persona-driven pipeline, we synthesized high-fidelity threats across seven taxonomies, ranging from procurement manipulation and queue-jumping to obstetric violence. We discuss the ethical design of releasing these "vulnerability signatures" to correct the information asymmetry between malicious actors and AI developers. Ultimately, this work advocates for a shift from universal to context-aware safety, providing the necessary resources to immunize healthcare AI against the nuanced, systemic threats inherent to high-stakes medical environments -- vulnerabilities that represent the paramount risk to patient safety and the successful integration of AI in healthcare systems.
- Abstract(参考訳): LLM(Large Language Models)のヘルスケアへの統合は、‘textit{primum non nocere}’に根ざした安全パラダイムを必要とする。
しかし、現在のアライメント技術は、管理詐欺や臨床差別のような文脈に依存した違反を捉えるのに失敗する一般的な害の定義に依存している。
ブラジル統一健康システム(SUS)の規制と倫理の複雑さに配慮した214,219人の敵対的プロンプトのデータセットであるMedical Maliceを紹介した。
重要な点として、データセットには、各違反の背後にある理由が含まれており、モデルが修正された拒絶のセットを記憶するのではなく、倫理的境界を内部化することができる。
ペルソナ駆動パイプラインにおけるアンアライメントエージェント(Grok-4)を用いて,調達操作からキュージャンプ,産婦人科暴力に至るまで,7つの分類群にわたる高忠実度脅威を合成した。
我々は、悪意あるアクターとAI開発者の間の情報の非対称性を修正するために、これらの「脆弱性シグネチャ」をリリースする倫理的設計について議論する。
最終的に、この研究は、普遍的な安全性からコンテキスト対応の安全性へのシフトを提唱し、医療システムにおける患者の安全性とAIの正常な統合に対する最重要リスクを表す脆弱性である、高度な医療環境に固有の、体系的な脅威に対して、医療AIを免疫するために必要なリソースを提供する。
関連論文リスト
- Data Poisoning Vulnerabilities Across Healthcare AI Architectures: A Security Threat Analysis [39.89241412792336]
我々は,畳み込みニューラルネットワークに対するアーキテクチャ攻撃,大規模言語モデル,強化学習エージェントの4つのカテゴリの8つの攻撃シナリオを分析した。
以上の結果から,100~500サンプルしかアクセスできないアタッカーは,データセットのサイズに関わらず,医療AIを侵害する可能性が示唆された。
我々は、必要な敵検定、アンサンブルに基づく検出、プライバシー保護セキュリティ機構、AIセキュリティ標準に関する国際調整を含む多層防御を推奨する。
論文 参考訳(メタデータ) (2025-11-14T07:16:16Z) - The Open Syndrome Definition [61.0983330391914]
ケースとシンドロームの定義を表現するための,最初のオープンな機械可読フォーマットを提案する。
我々は、既存の人間可読定義を機械可読形式に変換するための、標準化されたケース定義とツールの最初の包括的なデータセットを紹介する。
オープンシンドローム定義フォーマットは、システム間のケース定義の一貫性とスケーラブルな使用を可能にし、公衆衛生の準備と対応を強化するAIの可能性を解放する。
論文 参考訳(メタデータ) (2025-09-29T19:41:54Z) - How to make Medical AI Systems safer? Simulating Vulnerabilities, and Threats in Multimodal Medical RAG System [21.40560864239872]
我々は医療用RAGシステムの脆弱性を調査する新しいフレームワークであるMedThreatRAGを提案する。
我々のアプローチの重要な革新は、シミュレーションされたセミオープンアタック環境の構築である。
We show that MedThreatRAG reduces answer F1 scores to 27.66% and downs LLaVA-Med-1.5 F1 rate to 51.36%。
論文 参考訳(メタデータ) (2025-08-24T05:11:09Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - MedSentry: Understanding and Mitigating Safety Risks in Medical LLM Multi-Agent Systems [24.60202452646343]
MedSentryは、100のサブテーマを持つ25のカテゴリにまたがる5万の相手医療プロンプトのベンチマークである。
我々は,4つの代表的マルチエージェントトポロジが「暗黒人格」エージェントからの攻撃に耐えられるかを分析するために,エンド・ツー・エンドの攻撃防御評価パイプラインを開発した。
論文 参考訳(メタデータ) (2025-05-27T07:34:40Z) - An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - Safety challenges of AI in medicine in the era of large language models [23.817939398729955]
大規模言語モデル(LLM)は、医療従事者、患者、研究者に新たな機会を提供する。
AIとLLMはより強力になり、いくつかの医療タスクにおいて超人的パフォーマンスを達成するにつれ、その安全性に対する公衆の懸念が高まっている。
本稿では,LLM時代のAI利用の新たなリスクについて検討する。
論文 参考訳(メタデータ) (2024-09-11T13:47:47Z) - The Need for Guardrails with Large Language Models in Medical Safety-Critical Settings: An Artificial Intelligence Application in the Pharmacovigilance Ecosystem [0.6965384453064829]
大規模言語モデル(LLM)は、特定の種類の知識処理を効果的にスケールする能力を備えた有用なツールである。
しかし、高リスクで安全に重要な領域への展開は、特に幻覚の問題など、ユニークな課題を生んでいる。
これは特に、不正確さが患者を傷つける可能性がある薬物の安全性のような設定に関係している。
我々は、特定の種類の幻覚と薬物安全性のエラーを軽減するために特別に設計されたガードレールのコンセプトスイートを開発し、実証した。
論文 参考訳(メタデータ) (2024-07-01T19:52:41Z) - COVI White Paper [67.04578448931741]
接触追跡は、新型コロナウイルスのパンデミックの進行を変える上で不可欠なツールだ。
カナダで開発されたCovid-19の公衆ピアツーピア接触追跡とリスク認識モバイルアプリケーションであるCOVIの理論的、設計、倫理的考察、プライバシ戦略について概説する。
論文 参考訳(メタデータ) (2020-05-18T07:40:49Z) - Digital Ariadne: Citizen Empowerment for Epidemic Control [55.41644538483948]
新型コロナウイルスの危機は、1918年のH1N1パンデミック以来、公衆衛生にとって最も危険な脅威である。
技術支援による位置追跡と接触追跡は、広く採用されれば、感染症の拡散を抑えるのに役立つかもしれない。
個人のデバイス上での自発的な位置情報とBluetoothトラッキングに基づいて、"diAry"や"digital Ariadne"と呼ばれるツールを提示する。
論文 参考訳(メタデータ) (2020-04-16T15:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。