論文の概要: Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions
- arxiv url: http://arxiv.org/abs/2605.22321v1
- Date: Thu, 21 May 2026 11:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.218987
- Title: Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions
- Title(参考訳): 時間的・空間的・意味的侵入に対する自律エージェントのベンチマーク
- Authors: Jianan Ma, Xiaohu Du, Ruixiao Lin, Yaoxiang Bian, Jialuo Chen, Jingyi Wang, Xiaofang Yang, Shiwen Cui, Changhua Meng, Xinhao Deng, Zhen Wang,
- Abstract要約: LLMをベースとしたエージェントシステムを対象とした,新しい多次元回避フレームワークを提案する。
これらの脅威を定量化するために,2,254個の実世界のエージェント実行軌跡からなる総合ベンチマークであるA3S-Benchを構築した。
我々の回避フレームワークは平均リスクトリガー率を28.3%から52.6%に引き上げる。
- 参考スコア(独自算出の注目度): 15.535628544812326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As autonomous agents (e.g., OpenClaw) increasingly operate with deep system-level privileges to execute complex tasks, they introduce severe, unmitigated security risks. Current vulnerability analyses overwhelmingly focus on single-turn, stateless behaviors, overlooking the expanded attack surface inherent in stateful, multi-turn interactions and dynamic tool invocations. In this paper, we propose a novel, multi-dimensional evasion framework targeting LLM-based agent systems. We introduce three stealthy attack vectors: (1) Temporal evasion, which fragments malicious payloads across sequential interaction turns; (2) Spatial evasion, which conceals payloads within complex external artifacts that evade standard LLM parsing mechanisms; and (3) Semantic evasion, which obscures malicious intents beneath benign contextual noise. To systematically quantify these threats, we construct A3S-Bench, a comprehensive benchmark comprising 2,254 real-world agent execution trajectories. Evaluating a standard agent framework separately integrated with 10 mainstream LLM backbones against 20 practical threat scenarios, we demonstrate that our evasion framework elevates the average risk trigger rate from a 28.3\% baseline to 52.6\%. These findings reveal systemic, architecture-level vulnerabilities in current autonomous agent systems that existing defenses fail to address, highlighting an urgent need for defense mechanisms tailored to the unique threats.
- Abstract(参考訳): 自律エージェント(例えばOpenClaw)は、複雑なタスクを実行するための深いシステムレベルの特権でますます運用されているため、厳しい、未解決のセキュリティリスクが伴います。
現在の脆弱性分析では、ステートフルでマルチターンなインタラクションと動的ツール呼び出しに固有の攻撃面の拡大を見越して、シングルターン、ステートレスな振る舞いに圧倒的に重点を置いている。
本稿では,LSMをベースとしたエージェントシステムを対象とした,新しい多次元回避フレームワークを提案する。
本研究では,(1)逐次的相互作用ターンで悪意のあるペイロードを断片化する時間的回避,(2)標準LLM解析機構を回避する複雑な外部アーティファクト内のペイロードを隠蔽する空間回避,(3)環境騒音下で悪意のある意図を隠蔽するセマンティック回避,の3つのステルス攻撃ベクトルを紹介する。
これらの脅威を体系的に定量化するために,2,254個の実世界のエージェント実行軌跡からなる総合的なベンチマークであるA3S-Benchを構築した。
標準エージェントフレームワークを10基のLLMバックボーンと分離して20の実用的な脅威シナリオに対して評価し、回避フレームワークが28.3\%のベースラインから52.6\%までの平均リスクトリガ率を上昇させることを示した。
これらの結果は、現在の自律エージェントシステムにおけるシステムレベルの脆弱性が、既存の防御に対処できないことを示し、ユニークな脅威に合わせた防衛機構の緊急的な必要性を浮き彫りにしている。
関連論文リスト
- TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs [32.38053469964495]
システム間インタラクションを含む拡張されたアクションスペースは、深刻なセキュリティ上の問題を引き起こす。
悪意のある命令をサードパーティのコンテンツ内に隠蔽するIPIは、データ流出などの不正なアクションをトリガーする。
9個のLPMバックボーンにまたがる4つの高度なIPI攻撃ベクトルに対する6つの防御戦略を評価した。
論文 参考訳(メタデータ) (2026-04-04T21:27:04Z) - Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats [29.43070870263607]
我々はOpenClawの総合的なセキュリティ脅威分析を行う。
本研究は, 間接的プロンプト注入, スキルサプライチェーン汚染, メモリ中毒, インテントドリフトなど, エージェントのライフサイクル全体にわたる脅威について検討する。
本研究は,時間的・多段階のシステム的リスクに対処する際の,現在のポイントベース防御機構の重大な欠陥を明らかにするものである。
論文 参考訳(メタデータ) (2026-03-12T07:24:05Z) - Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。
これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。
この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:53:25Z) - Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - How Brittle is Agent Safety? Rethinking Agent Risk under Intent Concealment and Task Complexity [55.441602598245744]
LLM駆動エージェントの現在の安全性評価は、主に原子害に焦点を当てており、悪意のある意図が複雑なタスクで隠されたり希釈されたりする高度な脅威に対処できなかった。
このギャップを,意図隠蔽とタスク複雑性の圧力下でのエージェントの安全性の脆さを二次元的に解析することで解決する。
目的が明確になるにつれて、安全アライメントは急激かつ予測的に低下し、「複雑パラドックス」が出現する。
論文 参考訳(メタデータ) (2025-11-11T17:27:27Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。