論文の概要: A New Era in LLM Security: Exploring Security Concerns in Real-World
LLM-based Systems
- arxiv url: http://arxiv.org/abs/2402.18649v1
- Date: Wed, 28 Feb 2024 19:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:04:00.501973
- Title: A New Era in LLM Security: Exploring Security Concerns in Real-World
LLM-based Systems
- Title(参考訳): LLMセキュリティの新しい時代 : 実世界のLLMシステムにおけるセキュリティ問題を探る
- Authors: Fangzhou Wu, Ning Zhang, Somesh Jha, Patrick McDaniel, Chaowei Xiao
- Abstract要約: 我々は,LLMではなく,Large Language Model(LLM)システムのセキュリティを分析する。
我々は,多層・多段階のアプローチを提案し,これを最先端のOpenAI GPT4に適用する。
OpenAI GPT4は安全機能を改善するために多くの安全制約を設計しているが、これらの安全制約は攻撃者に対して脆弱である。
- 参考スコア(独自算出の注目度): 47.18371401090435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) systems are inherently compositional, with
individual LLM serving as the core foundation with additional layers of objects
such as plugins, sandbox, and so on. Along with the great potential, there are
also increasing concerns over the security of such probabilistic intelligent
systems. However, existing studies on LLM security often focus on individual
LLM, but without examining the ecosystem through the lens of LLM systems with
other objects (e.g., Frontend, Webtool, Sandbox, and so on). In this paper, we
systematically analyze the security of LLM systems, instead of focusing on the
individual LLMs. To do so, we build on top of the information flow and
formulate the security of LLM systems as constraints on the alignment of the
information flow within LLM and between LLM and other objects. Based on this
construction and the unique probabilistic nature of LLM, the attack surface of
the LLM system can be decomposed into three key components: (1) multi-layer
security analysis, (2) analysis of the existence of constraints, and (3)
analysis of the robustness of these constraints. To ground this new attack
surface, we propose a multi-layer and multi-step approach and apply it to the
state-of-art LLM system, OpenAI GPT4. Our investigation exposes several
security issues, not just within the LLM model itself but also in its
integration with other components. We found that although the OpenAI GPT4 has
designed numerous safety constraints to improve its safety features, these
safety constraints are still vulnerable to attackers. To further demonstrate
the real-world threats of our discovered vulnerabilities, we construct an
end-to-end attack where an adversary can illicitly acquire the user's chat
history, all without the need to manipulate the user's input or gain direct
access to OpenAI GPT4. Our demo is in the link:
https://fzwark.github.io/LLM-System-Attack-Demo/
- Abstract(参考訳): 大規模言語モデル(LLM)システムは本質的に構成的であり、個々のLLMは、プラグインやサンドボックスなどの追加のオブジェクト層と共にコア基盤として機能する。
大きな可能性に加えて、このような確率的インテリジェントシステムのセキュリティに対する懸念も高まっている。
しかし、LLMのセキュリティに関する既存の研究は、個々のLLMに焦点を当てることが多いが、他のオブジェクト(例えば、Frontend、Webtool、Sandboxなど)でLLMシステムのレンズを通してエコシステムを調べることなく。
本稿では,個々のLLMに注目するのではなく,LLMシステムのセキュリティを体系的に解析する。
そのため、情報フローの上に構築し、LLM内の情報フローとLLMと他のオブジェクト間の整合性に関する制約としてLLMシステムのセキュリティを定式化する。
この構成とLLMの独特な確率特性に基づいて,LLMシステムの攻撃面を,(1)多層セキュリティ解析,(2)制約の存在分析,(3)制約の堅牢性解析の3つの重要な構成要素に分解することができる。
この新たな攻撃面を基盤として,多層・多段アプローチを提案し,これを最先端LLMシステムであるOpenAI GPT4に適用する。
我々の調査は、LLMモデル自体だけでなく、他のコンポーネントとの統合においても、いくつかのセキュリティ問題を明らかにしています。
OpenAI GPT4は安全機能を改善するために多くの安全制約を設計しているが、これらの安全制約は攻撃者に対して脆弱である。
発見した脆弱性の現実的な脅威をさらに実証するため,ユーザ入力を操作する必要やOpenAI GPT4への直接アクセスを必要とせず,相手が不正にユーザのチャット履歴を取得できるエンドツーエンド攻撃を構築した。
デモはリンクにある。 https://fzwark.github.io/llm-system-attack-demo/
関連論文リスト
- Large Language Model Supply Chain: Open Problems From the Security Perspective [25.320736806895976]
大規模言語モデル(LLM)はソフトウェア開発パラダイムを変えつつあり、学術と産業の両方から大きな注目を集めています。
各コンポーネントの潜在的なセキュリティリスクとLCM SCのコンポーネント間の統合について議論する第一歩を踏み出します。
論文 参考訳(メタデータ) (2024-11-03T15:20:21Z) - System-Level Defense against Indirect Prompt Injection Attacks: An Information Flow Control Perspective [24.583984374370342]
LLMシステム(Large Language Model-based System)は、情報処理およびクエリ処理システムである。
本稿では,情報フロー制御の原理に基づくシステムレベルの防衛システムについて述べる。
論文 参考訳(メタデータ) (2024-09-27T18:41:58Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Attacks on Third-Party APIs of Large Language Models [15.823694509708302]
大規模言語モデル(LLM)サービスは最近、サードパーティのAPIサービスと対話するプラグインエコシステムの提供を開始した。
このイノベーションはLLMの能力を高めるが、リスクも導入する。
本稿では,サードパーティサービスを含むLDMプラットフォームにおけるセキュリティと安全性の脆弱性を調査する新たな攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T19:27:02Z) - Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security [5.077261736366414]
強力なMLLMのような信頼性の高いAIシステムの追求は、現代研究の重要な領域として現れている。
本稿では,画像モダリティのMLLMへの導入に伴う多面的リスクの軽減に努める。
論文 参考訳(メタデータ) (2024-04-08T07:54:18Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language
Model Systems [29.828997665535336]
大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。
しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用にとって大きな障害となっている。
本稿では,LLMシステムの各モジュールに関連する潜在的なリスクを体系的に分析する包括的分類法を提案する。
論文 参考訳(メタデータ) (2024-01-11T09:29:56Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。