論文の概要: Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection
- arxiv url: http://arxiv.org/abs/2302.12173v2
- Date: Fri, 5 May 2023 14:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 17:03:23.204674
- Title: Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection
- Title(参考訳): あなたがサインアップしたものではない:間接的プロンプト注入による現実世界のLLM統合アプリケーションの妥協
- Authors: Kai Greshake, Sahar Abdelnabi, Shailesh Mishra, Christoph Endres,
Thorsten Holz, Mario Fritz
- Abstract要約: 大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
- 参考スコア(独自算出の注目度): 64.67495502772866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly being integrated into various
applications. The functionalities of recent LLMs can be flexibly modulated via
natural language prompts. This renders them susceptible to targeted adversarial
prompting, e.g., Prompt Injection (PI) attacks enable attackers to override
original instructions and employed controls. So far, it was assumed that the
user is directly prompting the LLM. But, what if it is not the user prompting?
We argue that LLM-Integrated Applications blur the line between data and
instructions. We reveal new attack vectors, using Indirect Prompt Injection,
that enable adversaries to remotely (without a direct interface) exploit
LLM-integrated applications by strategically injecting prompts into data likely
to be retrieved. We derive a comprehensive taxonomy from a computer security
perspective to systematically investigate impacts and vulnerabilities,
including data theft, worming, information ecosystem contamination, and other
novel security risks. We demonstrate our attacks' practical viability against
both real-world systems, such as Bing's GPT-4 powered Chat and code-completion
engines, and synthetic applications built on GPT-4. We show how processing
retrieved prompts can act as arbitrary code execution, manipulate the
application's functionality, and control how and if other APIs are called.
Despite the increasing integration and reliance on LLMs, effective mitigations
of these emerging threats are currently lacking. By raising awareness of these
vulnerabilities and providing key insights into their implications, we aim to
promote the safe and responsible deployment of these powerful models and the
development of robust defenses that protect users and systems from potential
attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
近年のLLMの機能は自然言語のプロンプトによって柔軟に調節できる。
例えば、プロンプト・インジェクション(PI)攻撃では、攻撃者が元の命令をオーバーライドし、制御を使用できるようになる。
これまでのところ、ユーザが直接LSMを誘導していると仮定されていた。
しかし、ユーザがプロンプトしていない場合はどうだろう?
LLM-Integrated Applicationsはデータと命令の境界を曖昧にします。
Indirect Prompt Injection を使って新たな攻撃ベクトルを明らかにし、敵がリモートで(直接インターフェースを使わずに)LSM統合アプリケーションを利用できるようにする。
我々は,コンピュータセキュリティの観点から包括的分類法を導出し,データ盗難,ワーム,情報エコシステム汚染,その他の新たなセキュリティリスクを含む影響や脆弱性を体系的に調査する。
我々は,Bing の GPT-4 搭載の Chat やコード補完エンジン,GPT-4 をベースとした合成アプリケーションなど,実世界のシステムに対する攻撃の実用可能性を示す。
検索したプロンプトが任意のコード実行として動作し、アプリケーションの機能を操作し、他のAPIが呼び出されるかどうかを制御する方法を示す。
LLMとの統合と依存の高まりにもかかわらず、これらの新興脅威の効果的な軽減は、現在不足している。
これらの脆弱性の認識を高め、その影響に関する重要な洞察を提供することで、これらの強力なモデルの安全かつ責任ある展開と、ユーザやシステムに対する潜在的な攻撃から保護する堅牢な防御の開発を促進することを目指している。
関連論文リスト
- Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems [6.480532634073257]
本稿では、相互接続されたエージェント間で、悪意のある自己複製を促す新しい攻撃であるPrompt infectionを紹介する。
この攻撃は、データ盗難、詐欺、誤報、システム全体の破壊など、深刻な脅威を引き起こす。
そこで本研究では,既存の安全対策と組み合わせることで感染拡大を著しく軽減する防衛機構であるLSM Taggingを提案する。
論文 参考訳(メタデータ) (2024-10-09T11:01:29Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。
間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。
我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文 参考訳(メタデータ) (2024-03-20T15:26:23Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Identifying and Mitigating Vulnerabilities in LLM-Integrated
Applications [37.316238236750415]
LLM統合アプリケーションのバックエンドとして,大規模言語モデル(LLM)がますます多くデプロイされている。
本研究では,ユーザとLLMがLLM統合アプリケーションを介して,中間で対話する環境について考察する。
悪意のあるアプリケーション開発者や外部からの脅威から生じる可能性のある潜在的な脆弱性を特定します。
我々は、内部の脅威と外部の脅威の両方を緩和する軽量で脅威に依存しない防御を開発する。
論文 参考訳(メタデータ) (2023-11-07T20:13:05Z) - Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of
LLMs through a Global Scale Prompt Hacking Competition [8.560772603154545]
大規模な言語モデルは、インジェクションとジェイルブレイクの即時実行に対して脆弱である。
われわれはグローバルなプロンプト・ハッキング・コンペティションを開催する。
我々は,600K以上の逆のプロンプトを,最先端の3つのLDMに対して提案する。
論文 参考訳(メタデータ) (2023-10-24T18:18:11Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。