論文の概要: Multimodal Prompt Injection Attacks: Risks and Defenses for Modern LLMs
- arxiv url: http://arxiv.org/abs/2509.05883v1
- Date: Sun, 07 Sep 2025 01:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.759737
- Title: Multimodal Prompt Injection Attacks: Risks and Defenses for Modern LLMs
- Title(参考訳): マルチモーダル・プロンプト・インジェクション・アタックのリスクと防御
- Authors: Andrew Yeo, Daeseon Choi,
- Abstract要約: 大規模言語モデル(LLM)は近年急速に普及している。
LLMはユーザーの指示を解釈し、人間のような反応を生成するのに優れている。
彼らの広範な展開は、重大なセキュリティリスクももたらします。
- 参考スコア(独自算出の注目度): 3.681156704989258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have seen rapid adoption in recent years, with industries increasingly relying on them to maintain a competitive advantage. These models excel at interpreting user instructions and generating human-like responses, leading to their integration across diverse domains, including consulting and information retrieval. However, their widespread deployment also introduces substantial security risks, most notably in the form of prompt injection and jailbreak attacks. To systematically evaluate LLM vulnerabilities -- particularly to external prompt injection -- we conducted a series of experiments on eight commercial models. Each model was tested without supplementary sanitization, relying solely on its built-in safeguards. The results exposed exploitable weaknesses and emphasized the need for stronger security measures. Four categories of attacks were examined: direct injection, indirect (external) injection, image-based injection, and prompt leakage. Comparative analysis indicated that Claude 3 demonstrated relatively greater robustness; nevertheless, empirical findings confirm that additional defenses, such as input normalization, remain necessary to achieve reliable protection.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年急速に普及しており、業界は競争上の優位性を維持するために言語モデルに依存している。
これらのモデルは、ユーザの指示を解釈し、人間的な応答を生成するのに優れており、コンサルティングや情報検索など、さまざまな領域で統合されている。
しかし、その広範な展開は重大なセキュリティリスクも生み出しており、特に注目すべきは、即時注入と脱獄攻撃の形でである。
LLMの脆弱性(特に外部のプロンプトインジェクション)を体系的に評価するために、我々は8つの商用モデルで一連の実験を行った。
それぞれのモデルは補充された衛生を使わずにテストされ、内蔵された安全装置にのみ依存した。
その結果、悪用可能な弱点を明らかにし、より強力なセキュリティ対策の必要性を強調した。
ダイレクトインジェクション,間接(外部)インジェクション,イメージベースインジェクション,即時リークの4つのカテゴリが検討された。
比較分析の結果, クロード3は比較的強い堅牢性を示したが, いずれにせよ, 入力正規化などの追加の防御効果は, 信頼性の高い保護を達成するために依然として必要であることが確認された。
関連論文リスト
- CAPTURE: Context-Aware Prompt Injection Testing and Robustness Enhancement [0.34530027457862006]
攻撃検出と過防衛傾向の両方を評価する新しい文脈認識型ベンチマークであるCAPTUREを紹介する。
実験の結果,現行のプロンプトインジェクションガードレールモデルでは,敵のケースでは高い偽陰性,良性シナリオでは過剰な偽陽性に悩まされていることが明らかとなった。
この新しいモデルでは、コンテキスト認識データセットの偽陰性率と偽陽性率の両方を劇的に削減します。
論文 参考訳(メタデータ) (2025-05-18T11:14:14Z) - CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs [7.597770587484936]
医療における大規模言語モデル(LLM)の安全性を評価するためのベンチマークであるCARES(Clinical Adversarial Robustness and Evaluation of Safety)を紹介する。
CARESには、8つの医療安全原則にまたがる18,000以上のプロンプト、4つの有害レベル、4つのプロンプトスタイルがあり、悪意のあるユースケースと良心的なユースケースの両方をシミュレートしている。
我々の分析によると、多くの最先端のLSMは、有害なプロンプトを微妙に言い換えるジェイルブレイクに対して脆弱でありながら、安全で非典型的なクエリを過剰に再利用している。
論文 参考訳(メタデータ) (2025-05-16T16:25:51Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Systematically Analyzing Prompt Injection Vulnerabilities in Diverse LLM Architectures [5.062846614331549]
本研究では,36大言語モデル(LLM)の各種インジェクション攻撃に対する脆弱性を系統的に解析する。
144回のインジェクション試験で, モデルパラメータと脆弱性との間に強い相関が認められた。
論文 参考訳(メタデータ) (2024-10-28T18:55:21Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Automatic and Universal Prompt Injection Attacks against Large Language
Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。
これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。
本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:46:20Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。