論文の概要: Conjunctive Prompt Attacks in Multi-Agent LLM Systems
- arxiv url: http://arxiv.org/abs/2604.16543v1
- Date: Fri, 17 Apr 2026 02:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.722457
- Title: Conjunctive Prompt Attacks in Multi-Agent LLM Systems
- Title(参考訳): マルチエージェントLDMシステムにおける共役プロンプトアタック
- Authors: Nokimul Hasan Arif, Qian Lou, Mengxin Zheng,
- Abstract要約: エージェント間ルーティングは、単一エージェント評価が見逃すアタックサーフェスを生成する。
本研究では,ユーザクエリ内のトリガーキーと,不正なリモートエージェント内の隠れ対向テンプレートのそれぞれが単独でベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニ
- 参考スコア(独自算出の注目度): 16.735743806437487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most LLM safety work studies single-agent models, but many real applications rely on multiple interacting agents. In these systems, prompt segmentation and inter-agent routing create attack surfaces that single-agent evaluations miss. We study \emph{conjunctive prompt attacks}, where a trigger key in the user query and a hidden adversarial template in one compromised remote agent each appear benign alone but activate harmful behavior when routing brings them together. We consider an attacker who changes neither model weights nor the client agent and instead controls only trigger placement and template insertion. Across star, chain, and DAG topologies, routing-aware optimization substantially increases attack success over non-optimized baselines while keeping false activations low. Existing defenses, including PromptGuard, Llama-Guard variants, and system-level controls such as tool restrictions, do not reliably stop the attack because no single component appears malicious in isolation. These results expose a structural vulnerability in agentic LLM pipelines and motivate defenses that reason over routing and cross-agent composition. Code is available at https://github.com/UCF-ML-Research/ConjunctiveAgents.
- Abstract(参考訳): LLMの安全作業の多くは単一エージェントモデルを研究するが、実際の多くのアプリケーションは複数の相互作用エージェントに依存している。
これらのシステムでは、プロンプトセグメンテーションとエージェント間ルーティングは、単一エージェント評価が見逃すアタックサーフェスを生成する。
ユーザクエリ内のトリガーキーと,一方の妥協されたリモートエージェント内の隠れ対向テンプレートがそれぞれベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグナグニグニグニグニグニグ
モデルウェイトもクライアントエージェントも変更せず、代わりにトリガー配置とテンプレート挿入のみを制御するアタッカーについて検討する。
スター、チェーン、DAGトポロジを越えて、ルーティング対応最適化は、偽のアクティベーションを低く保ちながら、最適化されていないベースラインに対する攻撃成功を大幅に増大させる。
PromptGuard、Llama-Guard亜種、ツール制限のようなシステムレベルのコントロールなど、既存の防御は、単独で悪意のあるコンポーネントが存在しないため、確実に攻撃を止めることはできない。
これらの結果は、エージェントLLMパイプラインの構造的脆弱性を明らかにし、ルーティングとクロスエージェント合成を理由とする防御を動機付けている。
コードはhttps://github.com/UCF-ML-Research/ConjunctiveAgentsで入手できる。
関連論文リスト
- WebAgentGuard: A Reasoning-Driven Guard Model for Detecting Prompt Injection Attacks in Web Agents [117.65855863464863]
Webエージェントはインジェクション攻撃に対して非常に脆弱である。
システム・プロンプト・ディフェンス(英語版)やエージェントの直接微調整を含む既存の防御は、効果が限られている。
本稿では,WebAgentGuardを導入し,インジェクション検出のためのマルチモーダルガードモデルを提案する。
論文 参考訳(メタデータ) (2026-04-14T04:50:35Z) - AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations [38.49666480491258]
LLMエージェントは間接プロンプト注入(IPI)に対して非常に脆弱である
本稿では,特定のツールコールが生成される理由を問うことでエージェントをセキュアにする,アクションレベルの因果属性という新しいパラダイムを提案する。
我々はこのパラダイムを、並列対実テストに基づくランタイムディフェンスであるAttriGuardでインスタンス化する。
論文 参考訳(メタデータ) (2026-03-11T13:23:46Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Multi-Agent Systems Execute Arbitrary Malicious Code [7.429202753218103]
敵コンテンツは、システム内の制御と通信をハイジャックして、安全でないエージェントや機能を呼び出すことができることを示す。
これにより、ユーザーのデバイス上で任意の悪意のあるコードを実行するまで、完全なセキュリティ侵害が発生する。
これらの結果が,マルチエージェントシステムのための信頼とセキュリティモデルの開発を動機付けることを願っている。
論文 参考訳(メタデータ) (2025-03-15T16:16:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。