論文の概要: STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents
- arxiv url: http://arxiv.org/abs/2509.25624v1
- Date: Tue, 30 Sep 2025 00:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.375376
- Title: STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents
- Title(参考訳): STAC:LLMエージェントを脱獄させる危険な鎖を作るツール
- Authors: Jing-Jing Li, Jianfeng He, Chao Shang, Devang Kulshreshtha, Xun Xian, Yi Zhang, Hang Su, Sandesh Swamy, Yanjun Qi,
- Abstract要約: 本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
- 参考スコア(独自算出の注目度): 38.755035623707656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs advance into autonomous agents with tool-use capabilities, they introduce security challenges that extend beyond traditional content-based LLM safety concerns. This paper introduces Sequential Tool Attack Chaining (STAC), a novel multi-turn attack framework that exploits agent tool use. STAC chains together tool calls that each appear harmless in isolation but, when combined, collectively enable harmful operations that only become apparent at the final execution step. We apply our framework to automatically generate and systematically evaluate 483 STAC cases, featuring 1,352 sets of user-agent-environment interactions and spanning diverse domains, tasks, agent types, and 10 failure modes. Our evaluations show that state-of-the-art LLM agents, including GPT-4.1, are highly vulnerable to STAC, with attack success rates (ASR) exceeding 90% in most cases. The core design of STAC's automated framework is a closed-loop pipeline that synthesizes executable multi-step tool chains, validates them through in-environment execution, and reverse-engineers stealthy multi-turn prompts that reliably induce agents to execute the verified malicious sequence. We further perform defense analysis against STAC and find that existing prompt-based defenses provide limited protection. To address this gap, we propose a new reasoning-driven defense prompt that achieves far stronger protection, cutting ASR by up to 28.8%. These results highlight a crucial gap: defending tool-enabled agents requires reasoning over entire action sequences and their cumulative effects, rather than evaluating isolated prompts or responses.
- Abstract(参考訳): LLMがツール使用能力を持つ自律エージェントに進化するにつれて、従来のコンテンツベースのLLM安全性の懸念を超えて、セキュリティ上の課題が導入される。
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
STACはツールコールをまとめて、それぞれが独立して無害に見えるようにしますが、組み合わせると、最終実行段階でのみ明らかになる有害な操作を集合的に有効にします。
我々は,483のSTACケースを自動生成・体系的に評価し,ユーザエージェントと環境のインタラクションを1,352セット行い,多様なドメイン,タスク,エージェントタイプ,10の障害モードを網羅するフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
STACの自動化フレームワークの中核となる設計はクローズドループパイプラインであり、実行可能マルチステップツールチェーンを合成し、環境内実行を通じて検証し、リバースエンジニアリングのステルスシーなマルチターンプロンプトはエージェントに確実に不正なシーケンスの実行を誘導する。
さらにSTACに対する防御分析を行い、既存のプロンプトベースの防御が限定的な保護を提供することを示した。
このギャップに対処するため、我々は、ASRを最大28.8%削減する、はるかに強力な保護を実現する新しい推論駆動防衛プロンプトを提案する。
ツール対応エージェントの防衛には、独立したプロンプトや応答を評価するのではなく、アクションシーケンス全体とその累積効果を推論する必要がある。
関連論文リスト
- AgentSentinel: An End-to-End and Real-Time Security Defense Framework for Computer-Use Agents [7.99316950952212]
LLM(Large Language Models)は、コンピュータ利用エージェントにますます統合されている。
LLMは意図しないツールコマンドや誤った入力を発行し、潜在的に有害な操作を引き起こす可能性がある。
我々は,セキュリティの脅威を軽減するために,エンド・ツー・エンドのリアルタイム防衛フレームワークであるAgentSentinelを提案する。
論文 参考訳(メタデータ) (2025-09-09T13:59:00Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.62654499260479]
我々は,LSMベースのエージェントの攻撃と防御を形式化し,ベンチマークし,評価するフレームワークであるAgen Security Bench (ASB)を紹介した。
ASBをベースとして、インジェクション攻撃10件、メモリ中毒攻撃、新しいPlan-of-Thoughtバックドア攻撃4件、混合攻撃11件をベンチマークした。
ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
論文 参考訳(メタデータ) (2024-10-03T16:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。