論文の概要: A New Era in LLM Security: Exploring Security Concerns in Real-World
LLM-based Systems
- arxiv url: http://arxiv.org/abs/2402.18649v1
- Date: Wed, 28 Feb 2024 19:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:04:00.501973
- Title: A New Era in LLM Security: Exploring Security Concerns in Real-World
LLM-based Systems
- Title(参考訳): LLMセキュリティの新しい時代 : 実世界のLLMシステムにおけるセキュリティ問題を探る
- Authors: Fangzhou Wu, Ning Zhang, Somesh Jha, Patrick McDaniel, Chaowei Xiao
- Abstract要約: 我々は,LLMではなく,Large Language Model(LLM)システムのセキュリティを分析する。
我々は,多層・多段階のアプローチを提案し,これを最先端のOpenAI GPT4に適用する。
OpenAI GPT4は安全機能を改善するために多くの安全制約を設計しているが、これらの安全制約は攻撃者に対して脆弱である。
- 参考スコア(独自算出の注目度): 47.18371401090435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) systems are inherently compositional, with
individual LLM serving as the core foundation with additional layers of objects
such as plugins, sandbox, and so on. Along with the great potential, there are
also increasing concerns over the security of such probabilistic intelligent
systems. However, existing studies on LLM security often focus on individual
LLM, but without examining the ecosystem through the lens of LLM systems with
other objects (e.g., Frontend, Webtool, Sandbox, and so on). In this paper, we
systematically analyze the security of LLM systems, instead of focusing on the
individual LLMs. To do so, we build on top of the information flow and
formulate the security of LLM systems as constraints on the alignment of the
information flow within LLM and between LLM and other objects. Based on this
construction and the unique probabilistic nature of LLM, the attack surface of
the LLM system can be decomposed into three key components: (1) multi-layer
security analysis, (2) analysis of the existence of constraints, and (3)
analysis of the robustness of these constraints. To ground this new attack
surface, we propose a multi-layer and multi-step approach and apply it to the
state-of-art LLM system, OpenAI GPT4. Our investigation exposes several
security issues, not just within the LLM model itself but also in its
integration with other components. We found that although the OpenAI GPT4 has
designed numerous safety constraints to improve its safety features, these
safety constraints are still vulnerable to attackers. To further demonstrate
the real-world threats of our discovered vulnerabilities, we construct an
end-to-end attack where an adversary can illicitly acquire the user's chat
history, all without the need to manipulate the user's input or gain direct
access to OpenAI GPT4. Our demo is in the link:
https://fzwark.github.io/LLM-System-Attack-Demo/
- Abstract(参考訳): 大規模言語モデル(LLM)システムは本質的に構成的であり、個々のLLMは、プラグインやサンドボックスなどの追加のオブジェクト層と共にコア基盤として機能する。
大きな可能性に加えて、このような確率的インテリジェントシステムのセキュリティに対する懸念も高まっている。
しかし、LLMのセキュリティに関する既存の研究は、個々のLLMに焦点を当てることが多いが、他のオブジェクト(例えば、Frontend、Webtool、Sandboxなど)でLLMシステムのレンズを通してエコシステムを調べることなく。
本稿では,個々のLLMに注目するのではなく,LLMシステムのセキュリティを体系的に解析する。
そのため、情報フローの上に構築し、LLM内の情報フローとLLMと他のオブジェクト間の整合性に関する制約としてLLMシステムのセキュリティを定式化する。
この構成とLLMの独特な確率特性に基づいて,LLMシステムの攻撃面を,(1)多層セキュリティ解析,(2)制約の存在分析,(3)制約の堅牢性解析の3つの重要な構成要素に分解することができる。
この新たな攻撃面を基盤として,多層・多段アプローチを提案し,これを最先端LLMシステムであるOpenAI GPT4に適用する。
我々の調査は、LLMモデル自体だけでなく、他のコンポーネントとの統合においても、いくつかのセキュリティ問題を明らかにしています。
OpenAI GPT4は安全機能を改善するために多くの安全制約を設計しているが、これらの安全制約は攻撃者に対して脆弱である。
発見した脆弱性の現実的な脅威をさらに実証するため,ユーザ入力を操作する必要やOpenAI GPT4への直接アクセスを必要とせず,相手が不正にユーザのチャット履歴を取得できるエンドツーエンド攻撃を構築した。
デモはリンクにある。 https://fzwark.github.io/llm-system-attack-demo/
関連論文リスト
- Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
MLLMの安全性を意識した新しいトレーニング不要保護手法ECSO(Eyes Closed, Safety On, Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、あらかじめ整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - SecGPT: An Execution Isolation Architecture for LLM-Based Systems [37.47068167748932]
SecGPTは、サードパーティアプリの実行に伴うセキュリティとプライバシの問題を軽減することを目的としている。
我々はSecGPTをいくつかのケーススタディアタックに対して評価し、多くのセキュリティ、プライバシ、安全性の問題から保護されていることを実証する。
論文 参考訳(メタデータ) (2024-03-08T00:02:30Z) - Whispers in the Machine: Confidentiality in LLM-integrated Systems [5.500627268249088]
大きな言語モデル(LLM)は、ますます外部ツールと統合されている。
悪意のあるツールはLLM自体の脆弱性を利用してモデルを操作し、他のサービスのデータを侵害することができる。
LLM統合システムにおける機密性を体系的に評価する方法を提供する。
論文 参考訳(メタデータ) (2024-02-10T11:07:24Z) - Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language
Model Systems [29.828997665535336]
大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。
しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用にとって大きな障害となっている。
本稿では,LLMシステムの各モジュールに関連する潜在的なリスクを体系的に分析する包括的分類法を提案する。
論文 参考訳(メタデータ) (2024-01-11T09:29:56Z) - Can LLMs Patch Security Issues? [0.26107298043931204]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。
LLMはセキュリティ上の脆弱性や欠陥を含むコードを生成する。
そこで本稿では,Bandit からのフィードバックを受信するための LLM の利用について検討する。
論文 参考訳(メタデータ) (2023-11-13T08:54:37Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Trojaning Language Models for Fun and Profit [53.45727748224679]
TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。
セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
論文 参考訳(メタデータ) (2020-08-01T18:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。