論文の概要: The Granularity Mismatch in Agent Security: Argument-Level Provenance Solves Enforcement and Isolates the LLM Reasoning Bottleneck
- arxiv url: http://arxiv.org/abs/2605.11039v1
- Date: Mon, 11 May 2026 04:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.322064
- Title: The Granularity Mismatch in Agent Security: Argument-Level Provenance Solves Enforcement and Isolates the LLM Reasoning Bottleneck
- Title(参考訳): エージェントセキュリティにおける粒度ミストマッチ: LLM推論ボトルネックを強制して分離するArgument-Level Provenance Solves
- Authors: Linfeng Fan, Ziwei Li, Yuan Tian, Yichen Wang, Rongsheng Li, Xiong Wang,
- Abstract要約: textscPACTは、ツール引数にセマンティックロールを割り当てるランタイムモニタである。
textscPACTはエージェントセキュリティを権限バインディングとして再設定する。
- 参考スコア(独自算出の注目度): 18.14752683836217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-using LLM agents must act on untrusted webpages, emails, files, and API outputs while issuing privileged tool calls. Existing defenses often mediate trust at the granularity of an entire tool invocation, forcing a brittle choice in mixed-trust workflows: allow external content to influence a call and risk hijacked destinations or commands, or quarantine the call and block benign retrieval-then-act behavior. The key observation behind this paper is that indirect prompt injection becomes dangerous not when untrusted content appears in context, but when it determines an authority-bearing argument. We present \textsc{PACT} (\emph{Provenance-Aware Capability Contracts}), a runtime monitor that assigns semantic roles to tool arguments, tracks value provenance across replanning steps, and checks whether each argument's origin satisfies its role-specific trust contract. Under oracle provenance, \textsc{PACT} achieves 100\% utility and 100\% security on mixed-trust diagnostic suites, while flat invocation-level monitors incur false positives or false negatives. In full AgentDojo deployments across five models, \textsc{PACT} reaches 100\% security on the three strongest models while recovering 38.1--46.4\% utility, 8--16 percentage points above CaMeL at the same security level. Ablations show that both semantic roles and cross-step provenance are necessary. \textsc{PACT} reframes agent security as authority binding, and isolates the remaining deployment bottleneck to provenance inference and contract synthesis.
- Abstract(参考訳): ツールを使用するLLMエージェントは、権限を持ったツールコールを発行しながら、信頼できないWebページ、Eメール、ファイル、API出力で動作しなければならない。
既存の防御は、ツール呼び出し全体の粒度で信頼を仲介し、混合トラストワークフローにおいて不安定な選択を強制する。例えば、外部コンテンツが呼び出しに影響を与え、ハイジャックされた宛先またはコマンドを危険にさらすこと、あるいは、呼び出しを隔離し、良心的な検索行為をブロックすることである。
本論文の背景には,不信任内容が文脈に現れるのではなく,権限を有する議論が決定された場合に間接的プロンプトインジェクションが危険になる,という考察がある。
本稿では,ツール引数にセマンティックロールを割り当てるランタイムモニタであるtextsc{PACT}(\emph{Provenance-Aware Capability Contracts})を紹介し,各引数の起源がそのロール固有の信頼契約を満たすかどうかを確認する。
オラクルの証明の下では、 \textsc{PACT} は100\%ユーティリティと100\%セキュリティを混合トラスト診断スイートで達成し、フラットな呼び出しレベルモニターは偽陽性または偽陰性を引き起こす。
5つのモデルにわたる完全なAgentDojoデプロイメントでは、 \textsc{PACT}は3つの最強モデルで100\%のセキュリティを獲得し、38.1-46.4\%ユーティリティを回復し、同じセキュリティレベルでCaMeLよりも8-16ポイント高い。
アブレーションは、意味的役割と横断的な証明の両方が必要であることを示している。
\textsc{PACT} はエージェントのセキュリティを権限のバインディングとして再設定し、残りのデプロイメントボトルネックを証明推論とコントラクト合成に分離する。
関連論文リスト
- AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use [2.9991161518367875]
AgentTrustは実行前にエージェントツールコールをインターセプトし、構造化されたバリデーションを返す。
6つのリスクカテゴリにまたがる300-scenarioベンチマークと、630が独立して構築された現実世界の敵シナリオです。
パッチされたルールセットで評価された630秒のベンチマークでは、AgentTrustは96.7%の精度を達成している。
論文 参考訳(メタデータ) (2026-05-06T11:38:16Z) - When Agents Handle Secrets: A Survey of Confidential Computing for Agentic AI [6.1511441479993225]
ツールを計画し、実行し、永続的なメモリを保持し、タスクをピアエージェントに委譲するエージェントAIシステムは、スタンドアロンのモデル推論と実質的に異なる脅威表面を導入する。
Trusted Execution Environments (TEEs)は、エージェントコードとデータを特権システムソフトウェアから分離する。
本調査は, 設計空間を, (i) 展開の役割と業績のトレードオフをカバーする6つのTEEプラットフォームの統合分類, (ii) 認知,計画,記憶,行動,調整層を対象とするエージェント中心の脅威モデル, (iii) CCの比較調査の4つの部分で要約する。
論文 参考訳(メタデータ) (2026-05-04T23:09:16Z) - You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents [9.719776777345364]
外部文書を自律的に処理する高特権のLLMエージェントは、タスクを自動化するためにますます信頼されている。
これらのエージェントには、最小限のセキュリティ監視で端末アクセス、制御、アウトバウンドネットワーク接続が与えられる。
emphTrusted Executor Dilemmaと呼ばれるこの信頼モデルの基本的脆弱性を測定する。
この脆弱性は、実装バグではなく、命令追従設計パラダイムの構造的な結果である。
論文 参考訳(メタデータ) (2026-03-12T12:35:46Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - CoTGuard: Using Chain-of-Thought Triggering for Copyright Protection in Multi-Agent LLM Systems [55.57181090183713]
我々は、Chain-of-Thought推論内でトリガーベースの検出を活用する著作権保護のための新しいフレームワークであるCoTGuardを紹介する。
具体的には、特定のCoTセグメントをアクティベートし、特定のトリガクエリをエージェントプロンプトに埋め込むことで、未許可コンテンツ再生の中間的推論ステップを監視する。
このアプローチは、協調エージェントシナリオにおける著作権侵害の微細かつ解釈可能な検出を可能にする。
論文 参考訳(メタデータ) (2025-05-26T01:42:37Z) - Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Modelsを中心とした保護システムレイヤを作成する堅牢なディフェンスである。
CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。
セキュリティをさらに改善するため、CaMeLは、権限のないデータフロー上のプライベートデータの流出を防止する機能の概念を使用している。
論文 参考訳(メタデータ) (2025-03-24T15:54:10Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。