論文の概要: Identifying and Mitigating Vulnerabilities in LLM-Integrated
Applications
- arxiv url: http://arxiv.org/abs/2311.16153v2
- Date: Wed, 29 Nov 2023 03:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:05:31.115112
- Title: Identifying and Mitigating Vulnerabilities in LLM-Integrated
Applications
- Title(参考訳): LLM応用における脆弱性の特定と緩和
- Authors: Fengqing Jiang, Zhangchen Xu, Luyao Niu, Boxin Wang, Jinyuan Jia, Bo
Li, Radha Poovendran
- Abstract要約: LLM統合アプリケーションのバックエンドとして,大規模言語モデル(LLM)がますます多くデプロイされている。
本研究では,ユーザとLLMがLLM統合アプリケーションを介して,中間で対話する環境について考察する。
悪意のあるアプリケーション開発者や外部からの脅威から生じる可能性のある潜在的な脆弱性を特定します。
我々は、内部の脅威と外部の脅威の両方を緩和する軽量で脅威に依存しない防御を開発する。
- 参考スコア(独自算出の注目度): 37.316238236750415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as the service backend
for LLM-integrated applications such as code completion and AI-powered search.
LLM-integrated applications serve as middleware to refine users' queries with
domain-specific knowledge to better inform LLMs and enhance the responses.
Despite numerous opportunities and benefits, LLM-integrated applications also
introduce new attack surfaces. Understanding, minimizing, and eliminating these
emerging attack surfaces is a new area of research. In this work, we consider a
setup where the user and LLM interact via an LLM-integrated application in the
middle. We focus on the communication rounds that begin with user's queries and
end with LLM-integrated application returning responses to the queries, powered
by LLMs at the service backend. For this query-response protocol, we identify
potential vulnerabilities that can originate from the malicious application
developer or from an outsider threat initiator that is able to control the
database access, manipulate and poison data that are high-risk for the user.
Successful exploits of the identified vulnerabilities result in the users
receiving responses tailored to the intent of a threat initiator. We assess
such threats against LLM-integrated applications empowered by OpenAI GPT-3.5
and GPT-4. Our empirical results show that the threats can effectively bypass
the restrictions and moderation policies of OpenAI, resulting in users
receiving responses that contain bias, toxic content, privacy risk, and
disinformation. To mitigate those threats, we identify and define four key
properties, namely integrity, source identification, attack detectability, and
utility preservation, that need to be satisfied by a safe LLM-integrated
application. Based on these properties, we develop a lightweight,
threat-agnostic defense that mitigates both insider and outsider threats.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード補完やAIによる検索といったLLM統合アプリケーションのバックエンドとして、ますます多くデプロイされている。
LLM統合されたアプリケーションは、ユーザーのクエリをドメイン固有の知識で洗練し、LCMにより良い情報を与え、応答を強化するミドルウェアとして機能する。
多数の機会と利点にもかかわらず、llm統合アプリケーションは新しい攻撃面も導入している。
これらの新興の攻撃面を理解し、最小化し、排除することは、新しい研究分野である。
本研究では,ユーザとLLMがLLM統合アプリケーションを介して,中間で対話する環境について考察する。
我々は、ユーザのクエリから始まる通信ラウンドに注目し、サービスバックエンドでllmsを使用して、クエリに対する応答をllmに統合したアプリケーションで終了します。
このクエリ応答プロトコルでは、悪意のあるアプリケーション開発者や、データベースアクセスを制御できる外部の脅威イニシアチブから発生しうる潜在的な脆弱性を特定し、ユーザにとってリスクの高いデータを操作する。
特定された脆弱性のエクスプロイトに成功したユーザは、脅威開始者の意図に合わせた応答を受け取ることになる。
我々は,OpenAI GPT-3.5 と GPT-4 で強化された LLM 統合アプリケーションに対する脅威を評価する。
実験の結果、この脅威はOpenAIの制限やモデレーションポリシーを効果的に回避でき、その結果、ユーザーはバイアス、有害コンテンツ、プライバシーリスク、偽情報を含む応答を受け取ります。
これらの脅威を軽減するため、安全なLLM統合アプリケーションによって満たされる必要がある4つの重要な特性、すなわち、整合性、ソース識別、攻撃検出性、ユーティリティ保存を特定し、定義する。
これらの特性に基づいて、内部および外部の脅威を緩和する軽量で脅威に依存しない防御を開発する。
関連論文リスト
- Do LLMs Consider Security? An Empirical Study on Responses to Programming Questions [10.69738882390809]
ChatGPTは、開発者にコンテキスト固有の情報をボランティアして、安全なコーディングプラクティスを促進する。
我々は,3つのLLM(Claude 3, GPT-4, Llama 3)が示すセキュリティ意識の程度を評価する。
私たちの調査によると、3つのモデルすべてが、脆弱性を正確に検知し、ユーザに警告するのに苦労しており、データセット全体の検出率は12.6%から40%に過ぎません。
論文 参考訳(メタデータ) (2025-02-20T02:20:06Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Improved Large Language Model Jailbreak Detection via Pretrained Embeddings [0.0]
本稿では,従来の機械学習分類アルゴリズムを用いた検索に適したペアリングテキスト埋め込みに基づくジェイルブレイクプロンプトの検出手法を提案する。
当社のアプローチは,オープンソースのLLMセキュリティアプリケーションから入手可能なすべてのメソッドを上回ります。
論文 参考訳(メタデータ) (2024-12-02T14:35:43Z) - Human-Imperceptible Retrieval Poisoning Attacks in LLM-Powered Applications [10.06789804722156]
我々は,攻撃者がRAGプロセス中に悪意のある応答を誘導する,検索中毒と呼ばれるLSMベースのアプリケーションに対する新たな脅威を明らかにした。
我々の予備実験は、攻撃者が88.33%の成功率でLLMを誤解させ、実世界のアプリケーションで66.67%の成功率を達成することを示唆している。
論文 参考訳(メタデータ) (2024-04-26T07:11:18Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal [0.0]
本稿では,従来のシステムにおけるリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。
我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。
3つの主要株主グループに対する脅威もマップ化しています。
論文 参考訳(メタデータ) (2024-03-20T05:17:22Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。