論文の概要: More than you've asked for: A Comprehensive Analysis of Novel Prompt
Injection Threats to Application-Integrated Large Language Models
- arxiv url: http://arxiv.org/abs/2302.12173v1
- Date: Thu, 23 Feb 2023 17:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 14:22:08.855732
- Title: More than you've asked for: A Comprehensive Analysis of Novel Prompt
Injection Threats to Application-Integrated Large Language Models
- Title(参考訳): あなたが求めた以上に:アプリケーション統合型大規模言語モデルに対する新しいプロンプトインジェクション脅威の包括的な分析
- Authors: Kai Greshake, Sahar Abdelnabi, Shailesh Mishra, Christoph Endres,
Thorsten Holz, Mario Fritz
- Abstract要約: 検索とAPI呼び出し機能を備えた大規模言語モデルの拡張は、全く新しい攻撃ベクトルを誘導することを示す。
これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。
- 参考スコア(独自算出の注目度): 64.67495502772866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are currently witnessing dramatic advances in the capabilities of Large
Language Models (LLMs). They are already being adopted in practice and
integrated into many systems, including integrated development environments
(IDEs) and search engines. The functionalities of current LLMs can be modulated
via natural language prompts, while their exact internal functionality remains
implicit and unassessable. This property, which makes them adaptable to even
unseen tasks, might also make them susceptible to targeted adversarial
prompting. Recently, several ways to misalign LLMs using Prompt Injection (PI)
attacks have been introduced. In such attacks, an adversary can prompt the LLM
to produce malicious content or override the original instructions and the
employed filtering schemes. Recent work showed that these attacks are hard to
mitigate, as state-of-the-art LLMs are instruction-following. So far, these
attacks assumed that the adversary is directly prompting the LLM.
In this work, we show that augmenting LLMs with retrieval and API calling
capabilities (so-called Application-Integrated LLMs) induces a whole new set of
attack vectors. These LLMs might process poisoned content retrieved from the
Web that contains malicious prompts pre-injected and selected by adversaries.
We demonstrate that an attacker can indirectly perform such PI attacks. Based
on this key insight, we systematically analyze the resulting threat landscape
of Application-Integrated LLMs and discuss a variety of new attack vectors. To
demonstrate the practical viability of our attacks, we implemented specific
demonstrations of the proposed attacks within synthetic applications. In
summary, our work calls for an urgent evaluation of current mitigation
techniques and an investigation of whether new techniques are needed to defend
LLMs against these threats.
- Abstract(参考訳): 現在、LLM(Large Language Models)の機能の劇的な進歩を目の当たりにしています。
それらはすでに採用されており、統合開発環境(IDE)や検索エンジンを含む多くのシステムに統合されている。
現在のLLMの機能は自然言語のプロンプトによって変調できるが、内部機能は暗黙的であり、未評価のままである。
このプロパティは、目に見えないタスクにも適応可能であり、ターゲットの敵のプロンプトにも影響を受けやすい。
近年,プロンプトインジェクション(pi)攻撃を用いたllmの誤用法がいくつか紹介されている。
このような攻撃では、敵はLSMに悪意のあるコンテンツを生成したり、元の命令と採用したフィルタリングスキームを無効にすることができる。
最近の研究は、最先端のLLMが命令追従しているため、これらの攻撃を緩和することは困難であることを示した。
これまでのところ、これらの攻撃は敵が直接LLMを誘導していると仮定していた。
本研究では,検索とAPI呼び出し機能を備えたLLMの拡張(いわゆるApplication-Integrated LLM)により,全く新しい攻撃ベクトルが生成されることを示す。
これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。
攻撃者は間接的にこのようなPI攻撃を行うことができることを示す。
この重要な知見に基づいて,アプリケーション統合LDMの脅威景観を体系的に解析し,新たな攻撃ベクトルについて検討する。
攻撃の実用性を示すために,提案する攻撃の具体的実演を合成アプリケーションで実施した。
まとめると、我々の研究は、現在の緩和技術の緊急評価と、これらの脅威からllmを守るために新しい技術が必要かどうかの調査を要請しています。
関連論文リスト
- AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an
MLLM Operative [57.84617923683107]
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
MLLMの直接有害な出力生成とは違って,1つのMLLMエージェントを微妙に影響してプロンプトを生成する方法を示す。
この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Rapid Adoption, Hidden Risks: The Dual Impact of Large Language Model
Customization [39.55330732545979]
我々は、信頼できないカスタマイズ LLM と統合されたアプリケーションに対して、最初の命令バックドアアタックを提案する。
私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。
このような攻撃を緩和する際の部分的有効性を示すため,命令を無視した防御機構を提案する。
論文 参考訳(メタデータ) (2024-02-14T13:47:35Z) - Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks
Against LLM-Integrated Applications [0.0]
本稿では,早期のインジェクション攻撃に対する新しい解決策として,Signed-Prompt法を提案する。
この研究には、権限のあるユーザによるコマンドセグメント内の機密命令の署名が含まれており、LLMは信頼できる命令ソースを識別することができる。
実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示した。
論文 参考訳(メタデータ) (2024-01-15T11:44:18Z) - Identifying and Mitigating Vulnerabilities in LLM-Integrated
Applications [37.316238236750415]
LLM統合アプリケーションのバックエンドとして,大規模言語モデル(LLM)がますます多くデプロイされている。
本研究では,ユーザとLLMがLLM統合アプリケーションを介して,中間で対話する環境について考察する。
悪意のあるアプリケーション開発者や外部からの脅威から生じる可能性のある潜在的な脆弱性を特定します。
我々は、内部の脅威と外部の脅威の両方を緩和する軽量で脅威に依存しない防御を開発する。
論文 参考訳(メタデータ) (2023-11-07T20:13:05Z) - Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of
LLMs through a Global Scale Prompt Hacking Competition [8.560772603154545]
大規模な言語モデルは、インジェクションとジェイルブレイクの即時実行に対して脆弱である。
われわれはグローバルなプロンプト・ハッキング・コンペティションを開催する。
我々は,600K以上の逆のプロンプトを,最先端の3つのLDMに対して提案する。
論文 参考訳(メタデータ) (2023-10-24T18:18:11Z) - Prompt Injection Attacks and Defenses in LLM-Integrated Applications [63.91918057570824]
本稿では,インジェクション攻撃とその防御を形式化する枠組みを提案する。
我々のフレームワークは、既存の攻撃を組み合わせることで、新たな攻撃を設計できる。
また,迅速なインジェクション攻撃に対する防御を体系化する枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - RatGPT: Turning online LLMs into Proxies for Malware Attacks [0.0]
本稿では、ChatGPTが検出を回避しつつ悪意あるソフトウェアの普及に使用される概念実証について述べる。
我々はまた、検出されていないまま攻撃を成功させるために、一般的なアプローチと重要な要素を提示する。
論文 参考訳(メタデータ) (2023-08-17T20:54:39Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。