論文の概要: Identifying and Mitigating Vulnerabilities in LLM-Integrated
Applications
- arxiv url: http://arxiv.org/abs/2311.16153v2
- Date: Wed, 29 Nov 2023 03:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:05:31.115112
- Title: Identifying and Mitigating Vulnerabilities in LLM-Integrated
Applications
- Title(参考訳): LLM応用における脆弱性の特定と緩和
- Authors: Fengqing Jiang, Zhangchen Xu, Luyao Niu, Boxin Wang, Jinyuan Jia, Bo
Li, Radha Poovendran
- Abstract要約: LLM統合アプリケーションのバックエンドとして,大規模言語モデル(LLM)がますます多くデプロイされている。
本研究では,ユーザとLLMがLLM統合アプリケーションを介して,中間で対話する環境について考察する。
悪意のあるアプリケーション開発者や外部からの脅威から生じる可能性のある潜在的な脆弱性を特定します。
我々は、内部の脅威と外部の脅威の両方を緩和する軽量で脅威に依存しない防御を開発する。
- 参考スコア(独自算出の注目度): 37.316238236750415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as the service backend
for LLM-integrated applications such as code completion and AI-powered search.
LLM-integrated applications serve as middleware to refine users' queries with
domain-specific knowledge to better inform LLMs and enhance the responses.
Despite numerous opportunities and benefits, LLM-integrated applications also
introduce new attack surfaces. Understanding, minimizing, and eliminating these
emerging attack surfaces is a new area of research. In this work, we consider a
setup where the user and LLM interact via an LLM-integrated application in the
middle. We focus on the communication rounds that begin with user's queries and
end with LLM-integrated application returning responses to the queries, powered
by LLMs at the service backend. For this query-response protocol, we identify
potential vulnerabilities that can originate from the malicious application
developer or from an outsider threat initiator that is able to control the
database access, manipulate and poison data that are high-risk for the user.
Successful exploits of the identified vulnerabilities result in the users
receiving responses tailored to the intent of a threat initiator. We assess
such threats against LLM-integrated applications empowered by OpenAI GPT-3.5
and GPT-4. Our empirical results show that the threats can effectively bypass
the restrictions and moderation policies of OpenAI, resulting in users
receiving responses that contain bias, toxic content, privacy risk, and
disinformation. To mitigate those threats, we identify and define four key
properties, namely integrity, source identification, attack detectability, and
utility preservation, that need to be satisfied by a safe LLM-integrated
application. Based on these properties, we develop a lightweight,
threat-agnostic defense that mitigates both insider and outsider threats.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード補完やAIによる検索といったLLM統合アプリケーションのバックエンドとして、ますます多くデプロイされている。
LLM統合されたアプリケーションは、ユーザーのクエリをドメイン固有の知識で洗練し、LCMにより良い情報を与え、応答を強化するミドルウェアとして機能する。
多数の機会と利点にもかかわらず、llm統合アプリケーションは新しい攻撃面も導入している。
これらの新興の攻撃面を理解し、最小化し、排除することは、新しい研究分野である。
本研究では,ユーザとLLMがLLM統合アプリケーションを介して,中間で対話する環境について考察する。
我々は、ユーザのクエリから始まる通信ラウンドに注目し、サービスバックエンドでllmsを使用して、クエリに対する応答をllmに統合したアプリケーションで終了します。
このクエリ応答プロトコルでは、悪意のあるアプリケーション開発者や、データベースアクセスを制御できる外部の脅威イニシアチブから発生しうる潜在的な脆弱性を特定し、ユーザにとってリスクの高いデータを操作する。
特定された脆弱性のエクスプロイトに成功したユーザは、脅威開始者の意図に合わせた応答を受け取ることになる。
我々は,OpenAI GPT-3.5 と GPT-4 で強化された LLM 統合アプリケーションに対する脅威を評価する。
実験の結果、この脅威はOpenAIの制限やモデレーションポリシーを効果的に回避でき、その結果、ユーザーはバイアス、有害コンテンツ、プライバシーリスク、偽情報を含む応答を受け取ります。
これらの脅威を軽減するため、安全なLLM統合アプリケーションによって満たされる必要がある4つの重要な特性、すなわち、整合性、ソース識別、攻撃検出性、ユーティリティ保存を特定し、定義する。
これらの特性に基づいて、内部および外部の脅威を緩和する軽量で脅威に依存しない防御を開発する。
関連論文リスト
- Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications [0.0]
大規模言語モデル(LLM)は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。
本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。
論文 参考訳(メタデータ) (2024-06-16T16:43:58Z) - Human-Imperceptible Retrieval Poisoning Attacks in LLM-Powered Applications [10.06789804722156]
我々は,攻撃者がRAGプロセス中に悪意のある応答を誘導する,検索中毒と呼ばれるLSMベースのアプリケーションに対する新たな脅威を明らかにした。
我々の予備実験は、攻撃者が88.33%の成功率でLLMを誤解させ、実世界のアプリケーションで66.67%の成功率を達成することを示唆している。
論文 参考訳(メタデータ) (2024-04-26T07:11:18Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal [0.0]
本稿では,従来のシステムにおけるリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。
我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。
3つの主要株主グループに対する脅威もマップ化しています。
論文 参考訳(メタデータ) (2024-03-20T05:17:22Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。