論文の概要: Context Injection Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2405.20234v1
- Date: Thu, 30 May 2024 16:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:19:40.108903
- Title: Context Injection Attacks on Large Language Models
- Title(参考訳): 大規模言語モデルにおける文脈注入攻撃
- Authors: Cheng'an Wei, Kai Chen, Yue Zhao, Yujia Gong, Lu Xiang, Shenchen Zhu,
- Abstract要約: ChatGPTやLlama-2のような大規模言語モデル(LLM)は、現実世界のアプリケーションで広く使われている。
提案手法は,製造コンテキストを導入し,無効な応答を誘発することを目的としたコンテキストインジェクション攻撃を行うための体系的手法である。
我々のコンテキスト作成戦略、受け入れ推論、および単語匿名化は、攻撃者にカスタマイズされたプロンプトテンプレートで構造化可能な誤解を招くコンテキストを効果的に生成する。
- 参考スコア(独自算出の注目度): 12.920884182101142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) such as ChatGPT and Llama-2 have become prevalent in real-world applications, exhibiting impressive text generation performance. LLMs are fundamentally developed from a scenario where the input data remains static and lacks a clear structure. To behave interactively over time, LLM-based chat systems must integrate additional contextual information (i.e., chat history) into their inputs, following a pre-defined structure. This paper identifies how such integration can expose LLMs to misleading context from untrusted sources and fail to differentiate between system and user inputs, allowing users to inject context. We present a systematic methodology for conducting context injection attacks aimed at eliciting disallowed responses by introducing fabricated context. This could lead to illegal actions, inappropriate content, or technology misuse. Our context fabrication strategies, acceptance elicitation and word anonymization, effectively create misleading contexts that can be structured with attacker-customized prompt templates, achieving injection through malicious user messages. Comprehensive evaluations on real-world LLMs such as ChatGPT and Llama-2 confirm the efficacy of the proposed attack with success rates reaching 97%. We also discuss potential countermeasures that can be adopted for attack detection and developing more secure models. Our findings provide insights into the challenges associated with the real-world deployment of LLMs for interactive and structured data scenarios.
- Abstract(参考訳): ChatGPT や Llama-2 のような大規模言語モデル (LLM) は、現実のアプリケーションで広く普及し、テキスト生成性能が著しく向上している。
LLMは、入力データが静的であり、明確な構造を持たないシナリオから基本的に開発されている。
LLMベースのチャットシステムは、時間とともに対話的に振る舞うためには、事前に定義された構造に従って、追加のコンテキスト情報(チャット履歴)を入力に組み込む必要がある。
本稿では,そのような統合が,信頼できないソースから誤解を招くコンテキストにLLMを公開し,システムとユーザ入力の区別に失敗し,ユーザがコンテキストを注入できるようにする方法について述べる。
提案手法は,製造コンテキストを導入し,無効な応答を誘発することを目的としたコンテキストインジェクション攻撃を行うための体系的手法である。
これは違法行為、不適切なコンテンツ、テクノロジーの誤用につながる可能性がある。
我々のコンテキスト作成戦略、受け入れ誘導、および単語匿名化は、悪意のあるユーザーメッセージを通じてインジェクションを達成し、攻撃者がカスタマイズしたプロンプトテンプレートで構造化できる誤解を招くコンテキストを効果的に生成する。
ChatGPT や Llama-2 のような実世界の LLM に関する総合的な評価は、提案された攻撃の有効性を確認し、成功率は 97% に達した。
また、攻撃検知やより安全なモデル開発に応用できる可能性についても論じる。
本研究は,対話型・構造化データシナリオにおけるLLMの現実的展開に関わる課題について考察した。
関連論文リスト
- Defending Against Social Engineering Attacks in the Age of LLMs [19.364994678178036]
大きな言語モデル(LLM)は、人間の会話パターンをエミュレートし、チャットベースのソーシャルエンジニアリング(CSE)攻撃を促進する。
本研究では,CSE脅威に対するファシリテーターとディフェンダーの両立能力について検討した。
メッセージレベルと会話レベルの両方の検出を改善するモジュール型ディフェンスパイプラインであるConvoSentinelを提案する。
論文 参考訳(メタデータ) (2024-06-18T04:39:40Z) - garak: A Framework for Security Probing Large Language Models [16.305837349514505]
garakは、ターゲットとするLarge Language Models(LLM)の脆弱性を発見し、特定するために使用できるフレームワークである。
フレームワークのアウトプットは、ターゲットモデルの弱点を記述し、ユニークなコンテキストで脆弱性を構成するものについての情報的な議論に寄与する。
論文 参考訳(メタデータ) (2024-06-16T18:18:43Z) - Exploring Backdoor Attacks against Large Language Model-based Decision Making [27.316115171846953]
大規模言語モデル(LLM)は、特定のアプリケーションで微調整された場合、意思決定タスクにおいて大きな可能性を示している。
これらのシステムは、微調整の段階でかなりの安全性とセキュリティ上のリスクにさらされている。
LLM対応意思決定システムに対するバックドアアタックの最初の包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。