Fugu-MT 論文翻訳(概要): More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models

論文の概要: More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models

arxiv url: http://arxiv.org/abs/2302.12173v1
Date: Thu, 23 Feb 2023 17:14:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-24 14:22:08.855732
Title: More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models
Title（参考訳）: あなたが求めた以上に:アプリケーション統合型大規模言語モデルに対する新しいプロンプトインジェクション脅威の包括的な分析
Authors: Kai Greshake, Sahar Abdelnabi, Shailesh Mishra, Christoph Endres, Thorsten Holz, Mario Fritz
Abstract要約: 検索とAPI呼び出し機能を備えた大規模言語モデルの拡張は、全く新しい攻撃ベクトルを誘導することを示す。これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。
参考スコア（独自算出の注目度）: 64.67495502772866
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We are currently witnessing dramatic advances in the capabilities of Large Language Models (LLMs). They are already being adopted in practice and integrated into many systems, including integrated development environments (IDEs) and search engines. The functionalities of current LLMs can be modulated via natural language prompts, while their exact internal functionality remains implicit and unassessable. This property, which makes them adaptable to even unseen tasks, might also make them susceptible to targeted adversarial prompting. Recently, several ways to misalign LLMs using Prompt Injection (PI) attacks have been introduced. In such attacks, an adversary can prompt the LLM to produce malicious content or override the original instructions and the employed filtering schemes. Recent work showed that these attacks are hard to mitigate, as state-of-the-art LLMs are instruction-following. So far, these attacks assumed that the adversary is directly prompting the LLM. In this work, we show that augmenting LLMs with retrieval and API calling capabilities (so-called Application-Integrated LLMs) induces a whole new set of attack vectors. These LLMs might process poisoned content retrieved from the Web that contains malicious prompts pre-injected and selected by adversaries. We demonstrate that an attacker can indirectly perform such PI attacks. Based on this key insight, we systematically analyze the resulting threat landscape of Application-Integrated LLMs and discuss a variety of new attack vectors. To demonstrate the practical viability of our attacks, we implemented specific demonstrations of the proposed attacks within synthetic applications. In summary, our work calls for an urgent evaluation of current mitigation techniques and an investigation of whether new techniques are needed to defend LLMs against these threats.
Abstract（参考訳）: 現在、LLM(Large Language Models)の機能の劇的な進歩を目の当たりにしています。それらはすでに採用されており、統合開発環境(IDE)や検索エンジンを含む多くのシステムに統合されている。現在のLLMの機能は自然言語のプロンプトによって変調できるが、内部機能は暗黙的であり、未評価のままである。このプロパティは、目に見えないタスクにも適応可能であり、ターゲットの敵のプロンプトにも影響を受けやすい。近年,プロンプトインジェクション(pi)攻撃を用いたllmの誤用法がいくつか紹介されている。このような攻撃では、敵はLSMに悪意のあるコンテンツを生成したり、元の命令と採用したフィルタリングスキームを無効にすることができる。最近の研究は、最先端のLLMが命令追従しているため、これらの攻撃を緩和することは困難であることを示した。これまでのところ、これらの攻撃は敵が直接LLMを誘導していると仮定していた。本研究では,検索とAPI呼び出し機能を備えたLLMの拡張(いわゆるApplication-Integrated LLM)により,全く新しい攻撃ベクトルが生成されることを示す。これらのLSMは、敵によって事前に注入され選択された悪意のあるプロンプトを含むWebから検索された有毒なコンテンツを処理する。攻撃者は間接的にこのようなPI攻撃を行うことができることを示す。この重要な知見に基づいて,アプリケーション統合LDMの脅威景観を体系的に解析し,新たな攻撃ベクトルについて検討する。攻撃の実用性を示すために,提案する攻撃の具体的実演を合成アプリケーションで実施した。まとめると、我々の研究は、現在の緩和技術の緊急評価と、これらの脅威からllmを守るために新しい技術が必要かどうかの調査を要請しています。

関連論文リスト

Breaking the Prompt Wall (I): A Real-World Case Study of Attacking ChatGPT via Lightweight Prompt Injection [12.565784666173277]
本報告では,ChatGPTのような大規模言語モデルプラットフォームに対して,インジェクションのプロンプトがどう作用するかを示す実例を示す。本稿では,ユーザ入力や Web ベース検索,システムレベルのエージェント命令を通じて,敵対的プロンプトをインジェクションする方法を示す。
論文参考訳（メタデータ） (2025-04-20T05:59:00Z)
Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文参考訳（メタデータ） (2025-02-18T08:17:32Z)
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文参考訳（メタデータ） (2025-02-12T17:19:36Z)
Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems [6.480532634073257]
本稿では、相互接続されたエージェント間で、悪意のある自己複製を促す新しい攻撃であるPrompt infectionを紹介する。この攻撃は、データ盗難、詐欺、誤報、システム全体の破壊など、深刻な脅威を引き起こす。そこで本研究では,既存の安全対策と組み合わせることで感染拡大を著しく軽減する防衛機構であるLSM Taggingを提案する。
論文参考訳（メタデータ） (2024-10-09T11:01:29Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文参考訳（メタデータ） (2024-03-20T15:26:23Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications [37.316238236750415]
LLM統合アプリケーションのバックエンドとして,大規模言語モデル(LLM)がますます多くデプロイされている。本研究では,ユーザとLLMがLLM統合アプリケーションを介して,中間で対話する環境について考察する。悪意のあるアプリケーション開発者や外部からの脅威から生じる可能性のある潜在的な脆弱性を特定します。我々は、内部の脅威と外部の脅威の両方を緩和する軽量で脅威に依存しない防御を開発する。
論文参考訳（メタデータ） (2023-11-07T20:13:05Z)
Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition [8.560772603154545]
大規模な言語モデルは、インジェクションとジェイルブレイクの即時実行に対して脆弱である。われわれはグローバルなプロンプト・ハッキング・コンペティションを開催する。我々は,600K以上の逆のプロンプトを,最先端の3つのLDMに対して提案する。
論文参考訳（メタデータ） (2023-10-24T18:18:11Z)
Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。この能力は、迅速なインジェクション攻撃のリスクをもたらす。このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文参考訳（メタデータ） (2023-08-17T06:21:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。