論文の概要: Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare
- arxiv url: http://arxiv.org/abs/2501.18632v1
- Date: Mon, 27 Jan 2025 22:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:37.054669
- Title: Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare
- Title(参考訳): 医療における大規模言語モデルジェイルブレイクに関する総合的研究
- Authors: Hang Zhang, Qian Lou, Yanshan Wang,
- Abstract要約: 大規模言語モデル(LLM)は、医療アプリケーションでますます活用されている。
本研究は、6個のLDMの脆弱性を3つの高度なブラックボックスジェイルブレイク技術に系統的に評価する。
- 参考スコア(独自算出の注目度): 15.438265972219869
- License:
- Abstract: Large language models (LLMs) are increasingly utilized in healthcare applications. However, their deployment in clinical practice raises significant safety concerns, including the potential spread of harmful information. This study systematically assesses the vulnerabilities of six LLMs to three advanced black-box jailbreaking techniques within medical contexts. To quantify the effectiveness of these techniques, we propose an automated and domain-adapted agentic evaluation pipeline. Experiment results indicate that leading commercial and open-source LLMs are highly vulnerable to medical jailbreaking attacks. To bolster model safety and reliability, we further investigate the effectiveness of Continual Fine-Tuning (CFT) in defending against medical adversarial attacks. Our findings underscore the necessity for evolving attack methods evaluation, domain-specific safety alignment, and LLM safety-utility balancing. This research offers actionable insights for advancing the safety and reliability of AI clinicians, contributing to ethical and effective AI deployment in healthcare.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療アプリケーションでますます活用されている。
しかし、臨床実践における彼らの展開は、有害な情報の潜在的拡散を含む、重大な安全上の懸念を引き起こす。
本研究は6個のLDMの脆弱性を医学的文脈における3つの高度なブラックボックスジェイルブレイク技術に系統的に評価する。
これらの手法の有効性を定量化するために,自動およびドメイン適応型エージェント評価パイプラインを提案する。
実験結果から、商用およびオープンソースのLLMは、医療用脱獄攻撃に対して非常に脆弱であることが示唆された。
モデル安全性と信頼性を高めるため,医療相手に対する攻撃防御におけるCFT(Continuous Fine-Tuning)の有効性について検討した。
本研究は, 攻撃方法の評価, ドメイン固有の安全性アライメント, LLMの安全性・ユーティリティバランスの進化の必要性を明らかにするものである。
この研究は、AIクリニックの安全性と信頼性を向上させるための実用的な洞察を提供し、医療における倫理的かつ効果的なAIデプロイメントに寄与する。
関連論文リスト
- Safety at Scale: A Comprehensive Survey of Large Model Safety [299.801463557549]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - Safety challenges of AI in medicine in the era of large language models [23.817939398729955]
大規模言語モデル(LLM)は、医療従事者、患者、研究者に新たな機会を提供する。
AIとLLMはより強力になり、いくつかの医療タスクにおいて超人的パフォーマンスを達成するにつれ、その安全性に対する公衆の懸念が高まっている。
本稿では,LLM時代のAI利用の新たなリスクについて検討する。
論文 参考訳(メタデータ) (2024-09-11T13:47:47Z) - Adversarial Attacks on Large Language Models in Medicine [34.17895005922139]
医療アプリケーションへの大型言語モデルの統合により、医療診断、治療勧告、患者医療の進歩が期待できる。
LLMの敵対的攻撃に対する感受性は重大な脅威となり、繊細な医学的文脈で有害な結果をもたらす可能性がある。
本研究では,3つの医療課題における2種類の敵攻撃に対するLDMの脆弱性について検討した。
論文 参考訳(メタデータ) (2024-06-18T04:24:30Z) - Medical MLLM is Vulnerable: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models [9.860799633304298]
本稿では,MedMLLMの未発見の脆弱性について述べる。
既往の医療データと非典型的自然現象を組み合わせることで、不正な悪意のある攻撃を定義する。
本稿では,MedMLLM の攻撃成功率を大幅に向上させる MCM 最適化手法を提案する。
論文 参考訳(メタデータ) (2024-05-26T19:11:21Z) - A Comprehensive Study of Jailbreak Attack versus Defense for Large Language Models [20.40158210837289]
Vicuna, LLama, GPT-3.5 Turboの3つの異なる言語モデルに適用した9つの攻撃手法と7つの防御手法について検討した。
以上の結果から,既存のホワイトボックス攻撃は普遍的手法に比べて性能が低く,入力に特別なトークンを含むと,攻撃成功の可能性に大きな影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T01:26:39Z) - Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。