論文の概要: MedSentry: Understanding and Mitigating Safety Risks in Medical LLM Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2505.20824v1
- Date: Tue, 27 May 2025 07:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.476163
- Title: MedSentry: Understanding and Mitigating Safety Risks in Medical LLM Multi-Agent Systems
- Title(参考訳): MedSentry:医療用LLMマルチエージェントシステムにおける安全性リスクの理解と緩和
- Authors: Kai Chen, Taihang Zhen, Hewei Wang, Kailai Liu, Xinfeng Li, Jing Huo, Tianpei Yang, Jinfeng Xu, Wei Dong, Yang Gao,
- Abstract要約: MedSentryは、100のサブテーマを持つ25のカテゴリにまたがる5万の相手医療プロンプトのベンチマークである。
我々は,4つの代表的マルチエージェントトポロジが「暗黒人格」エージェントからの攻撃に耐えられるかを分析するために,エンド・ツー・エンドの攻撃防御評価パイプラインを開発した。
- 参考スコア(独自算出の注目度): 24.60202452646343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed in healthcare, ensuring their safety, particularly within collaborative multi-agent configurations, is paramount. In this paper we introduce MedSentry, a benchmark comprising 5 000 adversarial medical prompts spanning 25 threat categories with 100 subthemes. Coupled with this dataset, we develop an end-to-end attack-defense evaluation pipeline to systematically analyze how four representative multi-agent topologies (Layers, SharedPool, Centralized, and Decentralized) withstand attacks from 'dark-personality' agents. Our findings reveal critical differences in how these architectures handle information contamination and maintain robust decision-making, exposing their underlying vulnerability mechanisms. For instance, SharedPool's open information sharing makes it highly susceptible, whereas Decentralized architectures exhibit greater resilience thanks to inherent redundancy and isolation. To mitigate these risks, we propose a personality-scale detection and correction mechanism that identifies and rehabilitates malicious agents, restoring system safety to near-baseline levels. MedSentry thus furnishes both a rigorous evaluation framework and practical defense strategies that guide the design of safer LLM-based multi-agent systems in medical domains.
- Abstract(参考訳): 大規模言語モデル(LLM)が医療にますます導入されるにつれて、特に協調的なマルチエージェント構成における安全性が最優先される。
本稿では,25の脅威カテゴリと100のサブテーマにまたがる5万の反対医療プロンプトからなるベンチマークであるMedSentryを紹介する。
このデータセットと組み合わせて、我々は、4つの代表的なマルチエージェントトポロジ(Layers、SharedPool、Centralized、Decentralized)が「暗黒人格」エージェントからの攻撃に耐える方法を体系的に分析する、エンドツーエンドの攻撃防御評価パイプラインを開発する。
これらのアーキテクチャが情報の汚染をどのように処理し、堅牢な意思決定を維持し、その基盤となる脆弱性メカニズムを明らかにするかにおいて、重要な違いが明らかとなった。
例えば、SharedPoolのオープンな情報共有は、非常に影響を受けやすくする一方、分散アーキテクチャは、固有の冗長性と分離によって、より大きなレジリエンスを示す。
これらのリスクを軽減するため、悪意のあるエージェントを識別・修復し、システムの安全性をほぼベースラインレベルに回復するパーソナリティスケールの検知・修正機構を提案する。
したがって、MedSentryは、医療領域におけるより安全なLSMベースのマルチエージェントシステムの設計を導く厳格な評価フレームワークと実用的な防衛戦略の両方を提供する。
関連論文リスト
- SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems [1.2564343689544843]
我々は、セキュリティリスクとトレードオフを研究するために、共有目的に基づいて協力するAIエージェントのシミュレーションを開発する。
我々は、悪意のある指示の多重ホップ拡散という、感染した悪意のあるプロンプトを観察する。
この結果から,マルチエージェントシステムにおけるセキュリティと協調効率のトレードオフの可能性が示唆された。
論文 参考訳(メタデータ) (2025-02-26T14:00:35Z) - Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Adversarial Attacks on Large Language Models in Medicine [34.17895005922139]
医療アプリケーションへの大型言語モデルの統合により、医療診断、治療勧告、患者医療の進歩が期待できる。
LLMの敵対的攻撃に対する感受性は重大な脅威となり、繊細な医学的文脈で有害な結果をもたらす可能性がある。
本研究では,3つの医療課題における2種類の敵攻撃に対するLDMの脆弱性について検討した。
論文 参考訳(メタデータ) (2024-06-18T04:24:30Z) - Medical MLLM is Vulnerable: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models [9.860799633304298]
本稿では,MedMLLMの未発見の脆弱性について述べる。
既往の医療データと非典型的自然現象を組み合わせることで、不正な悪意のある攻撃を定義する。
本稿では,MedMLLM の攻撃成功率を大幅に向上させる MCM 最適化手法を提案する。
論文 参考訳(メタデータ) (2024-05-26T19:11:21Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。