論文の概要: ChainCaps: Composition-Safe Tool-Using Agents via Monotonic Capability Attenuation
- arxiv url: http://arxiv.org/abs/2605.26542v1
- Date: Tue, 26 May 2026 04:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.672055
- Title: ChainCaps: Composition-Safe Tool-Using Agents via Monotonic Capability Attenuation
- Title(参考訳): ChainCaps: モノトニック能力減衰による構成安全ツール利用エージェント
- Authors: Xiaochong Jiang, Shiqi Yang, Ziwei Li, Lifei Liu, Haoran Yu, Yichen Liu,
- Abstract要約: ChainCapsは透過的なMPPプロキシとして実装されており、エージェントやツールサーバの変更は必要ありません。
3つのプロバイダから5つのフロンティアモデルにまたがる82タスクにおいて、ChainCapsは攻撃成功率を25-68%から0-4.8%に下げる。
我々の主張は、信頼されたマニフェストとプロキシ可視のデータ移動の下での明示的なフロー構成の安全性に限られている。
- 参考スコア(独自算出の注目度): 11.138472843474505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-using agents increasingly operate in open-ended deployment environments, where they compose file systems, web APIs, code interpreters, and enterprise services at runtime. This creates a safety gap in tool composition: an agent can satisfy every per-tool permission check and still produce an unsafe end-to-end effect, such as reading a confidential document, summarizing it, and sending the summary to an external endpoint. We call this failure mode permission laundering. ChainCaps addresses it with a runtime rule: every value carries a sink-specific capability budget, and tool composition propagates budgets by intersection. A value can preserve or lose authority as it moves through a tool chain, but it cannot gain new authority through composition. We implement ChainCaps as a transparent MCP proxy that requires no changes to the agent or tool servers. On 82 tasks across five frontier models from three providers, ChainCaps reduces attack success rate from 25-68% to 0-4.8% while preserving 96-100% benign completion. In replay experiments, it also outperforms scalar-IFC and per-function-isolation baselines. Manifest quality is the dominant deployment bottleneck: expert manifests reach 100% attack blocking, while naive manifests fall to 27.3%. Our claims are limited to explicit-flow composition safety under trusted manifests and proxy-visible data movement, a practical gap in deployed tool-using agents today.
- Abstract(参考訳): ツール使用エージェントは、ファイルシステム、Web API、コードインタプリタ、実行時のエンタープライズサービスを構成する、オープンなデプロイメント環境でますます運用されている。
これはツール構成の安全性のギャップを生じさせる: エージェントはツールごとのパーミッションチェックをすべて満たし、機密文書を読み込んで要約し、外部エンドポイントにサマリを送信するといった、安全でないエンドツーエンドのエフェクトを生成することができる。
私たちはこの障害モードのパーミッション・ロンダリングを呼んでいます。
すべての値がシンク固有の機能予算を持ち、ツール構成が交差して予算を伝搬する。
価値はツールチェーンを通過するときに権限を保持または失うことができるが、構成によって新たな権限を得ることはできない。
ChainCapsは透過的なMPPプロキシとして実装されており、エージェントやツールサーバの変更は必要ありません。
3つのプロバイダから5つのフロンティアモデルにまたがる82のタスクにおいて、ChainCapsは攻撃成功率を25-68%から0-4.8%に下げ、96-100%の良心的な完成を保っている。
リプレイ実験では、スカラーIFCやファンクションごとのアイソレーションベースラインよりも優れている。
専門家のマニフェストは100%のアタックブロッキングに到達し、ナイーブのマニフェストは27.3%に低下する。
私たちの主張は、信頼されたマニフェストの下での明示的なフロー構成の安全性とプロキシ可視のデータ移動に限られています。
関連論文リスト
- Securing LLM Agents Need Intent-to-Execution Integrity [49.490963596514185]
我々は, LLMエージェントの確保には, エージェントの実行がユーザの意図を忠実に反映した場合に規定するエンドツーエンドの正当性を定義する必要があると主張している。
LLMエージェントはコンパイラと構造的に類似しており、セキュリティ違反はユーザ意図を保存しない誤った実行に対応する。
emphTool整合性、emph命令整合性、emphJudgment整合性、emphData整合性。
論文 参考訳(メタデータ) (2026-05-16T12:53:31Z) - The Granularity Mismatch in Agent Security: Argument-Level Provenance Solves Enforcement and Isolates the LLM Reasoning Bottleneck [18.14752683836217]
textscPACTは、ツール引数にセマンティックロールを割り当てるランタイムモニタである。
textscPACTはエージェントセキュリティを権限バインディングとして再設定する。
論文 参考訳(メタデータ) (2026-05-11T04:09:11Z) - AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use [2.9991161518367875]
AgentTrustは実行前にエージェントツールコールをインターセプトし、構造化されたバリデーションを返す。
6つのリスクカテゴリにまたがる300-scenarioベンチマークと、630が独立して構築された現実世界の敵シナリオです。
パッチされたルールセットで評価された630秒のベンチマークでは、AgentTrustは96.7%の精度を達成している。
論文 参考訳(メタデータ) (2026-05-06T11:38:16Z) - ShieldNet: Network-Level Guardrails against Emerging Supply-Chain Injections in Agentic Systems [56.613157564882925]
悪意のある行動は、一見良心的なツールに埋め込まれ、エージェントの実行を静かにハイジャックしたり、機密データをリークしたり、無許可のアクションをトリガーしたりする。
影響は拡大しているが、このような脅威を評価するための包括的なベンチマークは今のところ存在しない。
実ネットワークの相互作用を観測してサプライチェーン中毒を検出するネットワークレベルのガードレールフレームワークであるShieldNetを提案する。
論文 参考訳(メタデータ) (2026-04-06T05:15:00Z) - Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use [0.0]
既存のセキュリティレイヤでは、AIエージェントに何ができるか、それが主張するものを実行したのか、マルチエージェントインタラクションで何が起きたのかを検証できない。
既存のフレームワークはこれら2つを詳述し、サイレントな能力のエスカレーションを可能にし、検証済みの証明なしに相互作用を残す。
我々は3つのエージェントガバナンス要件を導出する:能力の完全性(G1)、行動の妥当性(G2)、相互作用監査性(G3)。
基本(Ed25519, SHA-256; 97 us verify)と拡張(BBS+選択開示、Groth16 DV-SNARK; 13.8 ms)の2つの暗号に依存しないインスタンス化で検証する。
論文 参考訳(メタデータ) (2026-03-15T11:46:57Z) - Internal Safety Collapse in Frontier Large Language Models [65.00730294617382]
この研究は、フロンティア大言語モデル(LLM)における重要な障害モードを特定する。
特定のタスク条件下では、モデルは有害なコンテンツを連続的に生成し、そうでなければ良質なタスクを実行する状態に入る。
有害なコンテンツを生成することが唯一有効な完了であるドメインタスクを通じてISCをトリガーするフレームワークであるTVDを紹介する。
論文 参考訳(メタデータ) (2026-03-04T12:55:34Z) - Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents [31.789859492703016]
エージェント・ツール通信ループは、Large Language Model (LLM)エージェントにおけるクリティカルアタックサーフェスである。
既存のDoS(DoS)攻撃は、この新しいパラダイムには効果がない。
正常に完了したタスクのヒントのもと、ツール層で機能するステルスで多ターンの経済DoS攻撃を導入する。
論文 参考訳(メタデータ) (2026-01-16T02:47:45Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Trace: Securing Smart Contract Repository Against Access Control Vulnerability [58.02691083789239]
GitHubはソースコード、ドキュメント、設定ファイルを含む多数のスマートコントラクトリポジトリをホストしている。
サードパーティの開発者は、カスタム開発中にこれらのリポジトリからコードを参照、再利用、フォークすることが多い。
スマートコントラクトの脆弱性を検出する既存のツールは、複雑なリポジトリを扱う能力に制限されている。
論文 参考訳(メタデータ) (2025-10-22T05:18:28Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。