論文の概要: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2405.20775v1
- Date: Sun, 26 May 2024 19:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 16:28:54.661995
- Title: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models
- Title(参考訳): 医療用マルチモーダル大言語モデルにおけるクロスモーダルジェイルブレイクとミスマッチ攻撃
- Authors: Xijie Huang, Xinyuan Wang, Hantao Zhang, Jiawen Xi, Jingkun An, Hao Wang, Chengwei Pan,
- Abstract要約: 本稿では,MedMLLMの未発見の脆弱性について述べる。
既存の医療データと非典型的な自然現象を組み合わせることで、2種類の攻撃を再定義する。
このデータセットと新たな攻撃方法による評価は、セキュリティ機能を強化したMedMLLMでさえ、セキュリティ違反に対して脆弱であることを示している。
- 参考スコア(独自算出の注目度): 8.398342612100574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Security concerns related to Large Language Models (LLMs) have been extensively explored, yet the safety implications for Multimodal Large Language Models (MLLMs), particularly in medical contexts (MedMLLMs), remain insufficiently studied. This paper delves into the underexplored security vulnerabilities of MedMLLMs, especially when deployed in clinical environments where the accuracy and relevance of question-and-answer interactions are critically tested against complex medical challenges. By combining existing clinical medical data with atypical natural phenomena, we redefine two types of attacks: mismatched malicious attack (2M-attack) and optimized mismatched malicious attack (O2M-attack). Using our own constructed voluminous 3MAD dataset, which covers a wide range of medical image modalities and harmful medical scenarios, we conduct a comprehensive analysis and propose the MCM optimization method, which significantly enhances the attack success rate on MedMLLMs. Evaluations with this dataset and novel attack methods, including white-box attacks on LLaVA-Med and transfer attacks on four other state-of-the-art models, indicate that even MedMLLMs designed with enhanced security features are vulnerable to security breaches. Our work underscores the urgent need for a concerted effort to implement robust security measures and enhance the safety and efficacy of open-source MedMLLMs, particularly given the potential severity of jailbreak attacks and other malicious or clinically significant exploits in medical settings. For further research and replication, anonymous access to our code is available at https://github.com/dirtycomputer/O2M_attack. Warning: Medical large model jailbreaking may generate content that includes unverified diagnoses and treatment recommendations. Always consult professional medical advice.
- Abstract(参考訳): 大規模言語モデル(LLM)に関するセキュリティ上の懸念は広く研究されているが、特に医学的文脈(MedMLLM)において、MLLM(Multimodal Large Language Models)の安全性への影響は十分に研究されていない。
本稿では,MedMLLMsの未発見のセキュリティ脆弱性,特に複雑な医学的課題に対して,問合せ・問合せの正確さと妥当性を重要視する臨床環境に展開する場合について述べる。
既往の医療データと非典型的な自然現象を組み合わせることで、不正な悪意攻撃(2M-アタック)と、不正な悪意攻撃(O2M-アタック)の2種類の攻撃を再定義する。
MedMLLMの攻撃成功率を大幅に向上させるMCM最適化手法を提案する。
このデータセットと、LLaVA-Medに対するホワイトボックス攻撃や、他の4つの最先端モデルに対する転送攻撃を含む、新しい攻撃方法による評価は、セキュリティ機能を強化したMedMLLMでさえ、セキュリティ違反に対して脆弱であることを示している。
我々の研究は、堅牢なセキュリティ対策を実践し、オープンソースMedMLLMの安全性と有効性を高めるための、緊急の努力の必要性を浮き彫りにしている。
さらなる研究とレプリケーションのために、コードへの匿名アクセスはhttps://github.com/dirty computer/O2M_ attack.comで利用可能である。
警告: 医療用大型モデルジェイルブレイクは、未確認の診断と治療勧告を含むコンテンツを生成する可能性がある。
常に専門医のアドバイスに相談する。
関連論文リスト
- Medical Multimodal Model Stealing Attacks via Adversarial Domain Alignment [79.41098832007819]
医療マルチモーダル大言語モデル(MLLM)は医療システムにおいて重要な要素となっている。
医療データはプライバシー規制によって保護されていないため、医療MLLMは貴重な知的財産である。
本稿では,医療MLLMに対する最初の盗難攻撃であるAdversarial Domain Alignment(ADA-STEAL)を紹介する。
論文 参考訳(メタデータ) (2025-02-04T16:04:48Z) - Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare [15.438265972219869]
大規模言語モデル(LLM)は、医療アプリケーションでますます活用されている。
本研究は、6個のLDMの脆弱性を3つの高度なブラックボックスジェイルブレイク技術に系統的に評価する。
論文 参考訳(メタデータ) (2025-01-27T22:07:52Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - Adversarial Attacks on Large Language Models in Medicine [34.17895005922139]
医療アプリケーションへの大型言語モデルの統合により、医療診断、治療勧告、患者医療の進歩が期待できる。
LLMの敵対的攻撃に対する感受性は重大な脅威となり、繊細な医学的文脈で有害な結果をもたらす可能性がある。
本研究では,3つの医療課題における2種類の敵攻撃に対するLDMの脆弱性について検討した。
論文 参考訳(メタデータ) (2024-06-18T04:24:30Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。