論文の概要: Benchmarking the Robustness of Agentic Systems to Adversarially-Induced Harms
- arxiv url: http://arxiv.org/abs/2508.16481v1
- Date: Fri, 22 Aug 2025 15:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.437343
- Title: Benchmarking the Robustness of Agentic Systems to Adversarially-Induced Harms
- Title(参考訳): エージェントシステムの逆誘起ハームに対するロバスト性の評価
- Authors: Jonathan Nöther, Adish Singla, Goran Radanovic,
- Abstract要約: 本稿では,エージェントから有害な作用を誘発する攻撃に対するエージェントシステムの堅牢性を評価する。
本稿では,エージェントシステムに対する害の新たな分類法と,新たなベンチマークであるBAD-ACTSを提案する。
BAD-ACTSは、異なるアプリケーション環境におけるエージェントシステムの4つの実装と、有害なアクションの188の高品質な例のデータセットで構成されている。
- 参考スコア(独自算出の注目度): 31.01865239234458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the safe use of agentic systems requires a thorough understanding of the range of malicious behaviors these systems may exhibit when under attack. In this paper, we evaluate the robustness of LLM-based agentic systems against attacks that aim to elicit harmful actions from agents. To this end, we propose a novel taxonomy of harms for agentic systems and a novel benchmark, BAD-ACTS, for studying the security of agentic systems with respect to a wide range of harmful actions. BAD-ACTS consists of 4 implementations of agentic systems in distinct application environments, as well as a dataset of 188 high-quality examples of harmful actions. This enables a comprehensive study of the robustness of agentic systems across a wide range of categories of harmful behaviors, available tools, and inter-agent communication structures. Using this benchmark, we analyze the robustness of agentic systems against an attacker that controls one of the agents in the system and aims to manipulate other agents to execute a harmful target action. Our results show that the attack has a high success rate, demonstrating that even a single adversarial agent within the system can have a significant impact on the security. This attack remains effective even when agents use a simple prompting-based defense strategy. However, we additionally propose a more effective defense based on message monitoring. We believe that this benchmark provides a diverse testbed for the security research of agentic systems. The benchmark can be found at github.com/JNoether/BAD-ACTS
- Abstract(参考訳): エージェントシステムの安全な使用を保証するには、攻撃時にこれらのシステムが示す悪意のある行動の範囲を徹底的に理解する必要がある。
本稿では, LLMをベースとしたエージェントシステムにおいて, エージェントから有害な作用を誘発する攻撃に対するロバスト性を評価する。
そこで本研究では,エージェントシステムに対する害の新たな分類法と,エージェントシステムの安全性を幅広い有害行動に関して研究するためのベンチマークであるBAD-ACTSを提案する。
BAD-ACTSは、異なるアプリケーション環境におけるエージェントシステムの4つの実装と、有害なアクションの188の高品質な例のデータセットで構成されている。
これにより、有害な行動、利用可能なツール、エージェント間通信構造など幅広いカテゴリにわたるエージェントシステムの堅牢性に関する包括的な研究が可能になる。
このベンチマークを用いて,システム内のエージェントの1つを制御する攻撃者に対するエージェントシステムの堅牢性を分析し,有害なターゲットアクションを実行するために他のエージェントを操作することを目的とした。
その結果,攻撃は高い成功率を示し,システム内の1つの敵エージェントであっても,セキュリティに大きな影響を及ぼす可能性が示唆された。
この攻撃は、エージェントが単純なプロンプトベースの防衛戦略を使用している場合でも有効である。
しかし、メッセージ監視に基づくより効果的な防御法も提案する。
このベンチマークはエージェントシステムのセキュリティ研究のための多様なテストベッドを提供すると考えている。
ベンチマークはgithub.com/JNoether/BAD-ACTSで見ることができる。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文 参考訳(メタデータ) (2025-07-01T15:10:00Z) - Demonstrations of Integrity Attacks in Multi-Agent Systems [7.640342064257848]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、システムの中核機能を破壊しずに自己利益を提供する悪意のあるエージェントに対して脆弱である可能性がある。
この研究は、悪意のあるエージェントが微妙なプロンプト操作を使用してバイアスMAS操作を行ない、様々な利益を得る、完全性攻撃を探索する。
論文 参考訳(メタデータ) (2025-06-05T02:44:49Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。