論文の概要: Evaluating Privilege Usage of Agents on Real-World Tools
- arxiv url: http://arxiv.org/abs/2603.28166v1
- Date: Mon, 30 Mar 2026 08:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.30624
- Title: Evaluating Privilege Usage of Agents on Real-World Tools
- Title(参考訳): 実世界のツールにおけるエージェントの民生利用評価
- Authors: Quan Zhang, Lianhang Fu, Lvsi Lian, Gwihwan Go, Yujue Wang, Chijin Zhou, Yu Jiang, Geguang Pu,
- Abstract要約: GrantBoxはエージェントの特権利用を分析するためのセキュリティ評価サンドボックスである。
GrantBoxは、現実世界のツールを自動的に統合し、LLMエージェントが真の特権を呼び出せるようにする。
- 参考スコア(独自算出の注目度): 20.792970933124305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Equipping LLM agents with real-world tools can substantially improve productivity. However, granting agents autonomy over tool use also transfers the associated privileges to both the agent and the underlying LLM. Improper privilege usage may lead to serious consequences, including information leakage and infrastructure damage. While several benchmarks have been built to study agents' security, they often rely on pre-coded tools and restricted interaction patterns. Such crafted environments differ substantially from the real-world, making it hard to assess agents' security capabilities in critical privilege control and usage. Therefore, we propose GrantBox, a security evaluation sandbox for analyzing agent privilege usage. GrantBox automatically integrates real-world tools and allows LLM agents to invoke genuine privileges, enabling the evaluation of privilege usage under prompt injection attacks. Our results indicate that while LLMs exhibit basic security awareness and can block some direct attacks, they remain vulnerable to more sophisticated attacks, resulting in an average attack success rate of 84.80% in carefully crafted scenarios.
- Abstract(参考訳): LLMエージェントを現実世界のツールで取得すると、生産性が大幅に向上する。
しかし、ツール使用よりもエージェントの自主性を認めることは、エージェントと基礎となるLLMの両方に関連する特権を転送する。
不適切な特権使用は、情報漏洩やインフラの損傷など、深刻な結果をもたらす可能性がある。
エージェントのセキュリティを研究するためにいくつかのベンチマークが作成されているが、プリコードされたツールや制限されたインタラクションパターンに依存していることが多い。
このような工芸的な環境は現実世界とは大きく異なり、重要な特権管理と使用法においてエージェントのセキュリティ能力を評価することは困難である。
そこで我々は,エージェントの特権使用状況を分析するセキュリティ評価サンドボックスであるGrantBoxを提案する。
GrantBoxは、現実世界のツールを自動的に統合し、LLMエージェントが真の特権を呼び出せるようにし、プロンプトインジェクション攻撃による特権使用の評価を可能にする。
LLMは基本的なセキュリティ意識を示し、いくつかの直接攻撃をブロックできるが、より高度な攻撃に弱いままであり、慎重に構築されたシナリオでは平均84.80%の攻撃成功率となる。
関連論文リスト
- AgenTRIM: Tool Risk Mitigation for Agentic AI [5.4672006013914975]
ツール駆動型エージェントリスクの検出と緩和のためのフレームワークであるAgenTRIMを紹介する。
AgenTRIMは、これらのリスクに相補的なオフラインおよびオンラインフェーズを通じて対処する。
AgenTRIMは、高いタスク性能を維持しながら、攻撃成功を大幅に削減する。
論文 参考訳(メタデータ) (2026-01-18T15:10:18Z) - MiniScope: A Least Privilege Framework for Authorizing Tool Calling Agents [13.73193852761645]
MiniScope は、信頼性の低い LLM による潜在的なダメージを埋めながら、ツール呼び出しエージェントがユーザアカウントで操作できるフレームワークである。
評価の結果,MiniScopeはバニラツール呼び出しエージェントに比べて1-6%の遅延オーバーヘッドしか発生しないことがわかった。
論文 参考訳(メタデータ) (2025-12-11T22:10:39Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Progent: Programmable Privilege Control for LLM Agents [46.31581986508561]
本稿では,大規模言語モデルエージェントをセキュアにするための最初の特権制御フレームワークであるProgentを紹介する。
Progentは、潜在的に悪意のあるものをブロックしながら、ユーザタスクに必要なツールコールの実行をエージェントに制限することで、ツールレベルでのセキュリティを強化する。
モジュール設計のおかげで、Progentの統合はエージェント内部を変更せず、既存のエージェントの実装に最小限の変更しか必要としません。
論文 参考訳(メタデータ) (2025-04-16T01:58:40Z) - Prompt Flow Integrity to Prevent Privilege Escalation in LLM Agents [12.072737324367937]
大規模言語モデル(LLM)における特権エスカレーションを防止するために,PFI(Prompt Flow Integrity)を提案する。
PFIは、エージェントアイソレーション、セキュアな信頼できないデータ処理、特権エスカレーションガードレールの3つの緩和技術を備えている。
評価の結果, PFI は LLM エージェントの有効性を保ちながら, 特権エスカレーション攻撃を効果的に軽減できることが示唆された。
論文 参考訳(メタデータ) (2025-03-17T05:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。