論文の概要: Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents
- arxiv url: http://arxiv.org/abs/2410.02644v1
- Date: Thu, 03 Oct 2024 16:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:54:17.007353
- Title: Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents
- Title(参考訳): エージェントセキュリティベンチ(ASB) : LLMエージェントにおける攻撃と防御の形式化とベンチマーク
- Authors: Hanrong Zhang, Jingyuan Huang, Kai Mei, Yifei Yao, Zhenting Wang, Chenlu Zhan, Hongwei Wang, Yongfeng Zhang,
- Abstract要約: Agent Security Bench (ASB) は、LSMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するためのフレームワークである。
我々は, インジェクション攻撃10件, メモリ中毒攻撃, 新規のPlan-of-Thoughtバックドア攻撃, 混合攻撃10件, 対応するバックボーン13件についてベンチマークを行った。
ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
- 参考スコア(独自算出の注目度): 32.62654499260479
- License:
- Abstract: Although LLM-based agents, powered by Large Language Models (LLMs), can use external tools and memory mechanisms to solve complex real-world tasks, they may also introduce critical security vulnerabilities. However, the existing literature does not comprehensively evaluate attacks and defenses against LLM-based agents. To address this, we introduce Agent Security Bench (ASB), a comprehensive framework designed to formalize, benchmark, and evaluate the attacks and defenses of LLM-based agents, including 10 scenarios (e.g., e-commerce, autonomous driving, finance), 10 agents targeting the scenarios, over 400 tools, 23 different types of attack/defense methods, and 8 evaluation metrics. Based on ASB, we benchmark 10 prompt injection attacks, a memory poisoning attack, a novel Plan-of-Thought backdoor attack, a mixed attack, and 10 corresponding defenses across 13 LLM backbones with nearly 90,000 testing cases in total. Our benchmark results reveal critical vulnerabilities in different stages of agent operation, including system prompt, user prompt handling, tool usage, and memory retrieval, with the highest average attack success rate of 84.30\%, but limited effectiveness shown in current defenses, unveiling important works to be done in terms of agent security for the community. Our code can be found at https://github.com/agiresearch/ASB.
- Abstract(参考訳): LLMベースのエージェントは、LLM(Large Language Models)をベースとして、複雑な現実世界のタスクを解決するために外部ツールやメモリメカニズムを使用することができるが、重要なセキュリティ脆弱性も導入する可能性がある。
しかし、既存の文献はLLMベースのエージェントに対する攻撃と防御を包括的に評価していない。
これを解決するために、私たちは、LSMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するための総合的なフレームワークであるAgens Security Bench(ASB)を紹介します。
ASBをベースとした10回のインジェクション攻撃,記憶障害攻撃,新規のPlan-of-Thoughtバックドア攻撃,混合攻撃,および合計90,000件のテストケースを含む13個のLLMバックボーンに対する10回の防御効果のベンチマークを行った。
ベンチマークの結果,システムプロンプト,ユーザプロンプトハンドリング,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
私たちのコードはhttps://github.com/agiresearch/ASB.orgで参照できます。
関連論文リスト
- AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Security Matrix for Multimodal Agents on Mobile Devices: A Systematic and Proof of Concept Study [16.559272781032632]
マルチモーダル大規模言語モデルの推論能力の急速な進歩は、モバイルデバイス上での自律エージェントシステムの開発をきっかけにしている。
ヒトと機械の相互作用効率が向上したにもかかわらず、MLLMベースの移動エージェントシステムのセキュリティリスクは体系的に研究されていない。
本稿では,MLLMシステムの設計におけるセキュリティ意識の必要性を強調し,今後の攻撃・防御手法の研究の道を開く。
論文 参考訳(メタデータ) (2024-07-12T14:30:05Z) - AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。
AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。
AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文 参考訳(メタデータ) (2024-06-19T08:55:56Z) - InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-03-05T06:21:45Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents [50.034049716274005]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Demystifying RCE Vulnerabilities in LLM-Integrated Apps [20.01949990700702]
大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著なポテンシャルを示している。
一部のフレームワークはリモートコード実行(RCE)脆弱性に悩まされており、アタッカーはプロンプトインジェクションを通じてアプリのサーバ上で任意のコードをリモートで実行できる。
1) LLMSmithと呼ばれる静的解析ベースのツールで,潜在的RCE脆弱性を検出するためにフレームワークのソースコードをスキャンし,2) LLM統合Webアプリの脆弱性を検証するために,プロンプトベースの自動テストアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-06T11:39:37Z) - MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.70417016955459]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。
我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。
9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (2023-02-21T20:26:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。