論文の概要: LLMZ+: Contextual Prompt Whitelist Principles for Agentic LLMs
- arxiv url: http://arxiv.org/abs/2509.18557v1
- Date: Tue, 23 Sep 2025 02:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.654518
- Title: LLMZ+: Contextual Prompt Whitelist Principles for Agentic LLMs
- Title(参考訳): LLMZ+:エージェントLDMのためのコンテキストプロンプトホワイトリスト原則
- Authors: Tom Pawelek, Raj Patel, Charlotte Crowell, Noorbakhsh Amiri, Sudip Mittal, Shahram Rahimi, Andy Perkins,
- Abstract要約: エージェントAIは、潜在的な攻撃者にとって価値のあるターゲットである。
DMZ(Demilitarized Zone)に属する典型的なソフトウェアアプリケーションとは異なり、エージェントLLMはAIの非決定的振る舞いに依存している。
この特徴は、運用セキュリティと情報セキュリティの両方に重大なセキュリティリスクをもたらす。
- 参考スコア(独自算出の注目度): 6.009944398165616
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Compared to traditional models, agentic AI represents a highly valuable target for potential attackers as they possess privileged access to data sources and API tools, which are traditionally not incorporated into classical agents. Unlike a typical software application residing in a Demilitarized Zone (DMZ), agentic LLMs consciously rely on nondeterministic behavior of the AI (only defining a final goal, leaving the path selection to LLM). This characteristic introduces substantial security risk to both operational security and information security. Most common existing defense mechanism rely on detection of malicious intent and preventing it from reaching the LLM agent, thus protecting against jailbreak attacks such as prompt injection. In this paper, we present an alternative approach, LLMZ+, which moves beyond traditional detection-based approaches by implementing prompt whitelisting. Through this method, only contextually appropriate and safe messages are permitted to interact with the agentic LLM. By leveraging the specificity of context, LLMZ+ guarantees that all exchanges between external users and the LLM conform to predefined use cases and operational boundaries. Our approach streamlines the security framework, enhances its long-term resilience, and reduces the resources required for sustaining LLM information security. Our empirical evaluation demonstrates that LLMZ+ provides strong resilience against the most common jailbreak prompts. At the same time, legitimate business communications are not disrupted, and authorized traffic flows seamlessly between users and the agentic LLM. We measure the effectiveness of approach using false positive and false negative rates, both of which can be reduced to 0 in our experimental setting.
- Abstract(参考訳): 従来のモデルと比較して、エージェントAIは、古典的なエージェントには組み込まれていないデータソースやAPIツールへの特権的アクセスを持つため、潜在的な攻撃者にとって非常に価値のあるターゲットである。
DMZ(Demilitarized Zone)に属する典型的なソフトウェアアプリケーションとは異なり、エージェントLLMはAIの非決定論的振る舞いに意識的に依存する(最終目標のみを定義し、道の選択はLLMに任せる)。
この特徴は、運用セキュリティと情報セキュリティの両方に重大なセキュリティリスクをもたらす。
最も一般的な防御機構は、悪意のある意図の検出とLLMエージェントへの到達の防止に依存しており、即発注射のようなジェイルブレイク攻撃を防いでいる。
本稿では,従来の検出に基づくアプローチを超越した代替手法 LLMZ+ を提案する。
この方法では、文脈的に適切かつ安全なメッセージのみがエージェントLLMと対話することが許される。
コンテキストの特異性を活用することで、LLMZ+は、外部ユーザとLLM間のすべての交換が、事前に定義されたユースケースと運用上のバウンダリに適合することを保証します。
当社のアプローチは,セキュリティフレームワークの合理化,長期的レジリエンスの向上,LLM情報セキュリティの維持に必要なリソースの削減を実現している。
LLMZ+は最も一般的な脱獄プロンプトに対して強い耐性を示す。
同時に、合法的なビジネスコミュニケーションは破壊されず、認可されたトラフィックは、ユーザとエージェントLLMの間でシームレスに流れる。
実験条件下では, 偽陽性, 偽陰性率によるアプローチの有効性を0に抑えることができる。
関連論文リスト
- sudoLLM: On Multi-role Alignment of Language Models [5.488963400383525]
ユーザ認証に基づくアクセス権限は、多くのセーフティクリティカルシステムにおいて重要な機能である。
マルチロールアライメント LLM を実現する新しいフレームワーク SudoLLM を紹介する。
論文 参考訳(メタデータ) (2025-05-20T16:54:34Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Prompt Flow Integrity to Prevent Privilege Escalation in LLM Agents [12.072737324367937]
大規模言語モデル(LLM)における特権エスカレーションを防止するために,PFI(Prompt Flow Integrity)を提案する。
PFIは、エージェントアイソレーション、セキュアな信頼できないデータ処理、特権エスカレーションガードレールの3つの緩和技術を備えている。
評価の結果, PFI は LLM エージェントの有効性を保ちながら, 特権エスカレーション攻撃を効果的に軽減できることが示唆された。
論文 参考訳(メタデータ) (2025-03-17T05:27:57Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Identifying and Mitigating Vulnerabilities in LLM-Integrated
Applications [37.316238236750415]
LLM統合アプリケーションのバックエンドとして,大規模言語モデル(LLM)がますます多くデプロイされている。
本研究では,ユーザとLLMがLLM統合アプリケーションを介して,中間で対話する環境について考察する。
悪意のあるアプリケーション開発者や外部からの脅威から生じる可能性のある潜在的な脆弱性を特定します。
我々は、内部の脅威と外部の脅威の両方を緩和する軽量で脅威に依存しない防御を開発する。
論文 参考訳(メタデータ) (2023-11-07T20:13:05Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。