論文の概要: Agent-Sentry: Bounding LLM Agents via Execution Provenance
- arxiv url: http://arxiv.org/abs/2603.22868v1
- Date: Tue, 24 Mar 2026 07:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.347518
- Title: Agent-Sentry: Bounding LLM Agents via Execution Provenance
- Title(参考訳): エージェント・サイエント:実行時間によるLDMエージェントの境界
- Authors: Rohan Sequeira, Stavros Damianakis, Umar Iqbal, Konstantinos Psounis,
- Abstract要約: 自然言語命令に基づく新しい機能を自律的に生成するエージェントコンピューティングシステムは、ますます普及しつつある。
非常に有能だが、これらのシステムは深刻なセキュリティ、プライバシー、安全上の懸念を提起する。
本稿では,エージェントシステムにこの問題に対処するためのフレームワークであるAgent-Sentryを提案する。
- 参考スコア(独自算出の注目度): 4.306721924522171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic computing systems, which autonomously spawn new functionalities based on natural language instructions, are becoming increasingly prevalent. While immensely capable, these systems raise serious security, privacy, and safety concerns. Fundamentally, the full set of functionalities offered by these systems, combined with their probabilistic execution flows, is not known beforehand. Given this lack of characterization, it is non-trivial to validate whether a system has successfully carried out the user's intended task or instead executed irrelevant actions, potentially as a consequence of compromise. In this paper, we propose Agent-Sentry, a framework that attempts to bound agentic systems to address this problem. Our key insight is that agentic systems are designed for specific use cases and therefore need not expose unbounded or unspecified functionalities. Once bounded, these systems become easier to scrutinize. Agent-Sentry operationalizes this insight by uncovering frequent functionalities offered by an agentic system, along with their execution traces, to construct behavioral bounds. It then learns a policy from these traces and blocks tool calls that deviate from learned behaviors or that misalign with user intent. Our evaluation shows that Agent-Sentry helps prevent over 90\% of attacks that attempt to trigger out-of-bounds executions, while preserving up to 98\% of system utility.
- Abstract(参考訳): 自然言語命令に基づく新しい機能を自律的に生成するエージェントコンピューティングシステムは、ますます普及しつつある。
非常に有能だが、これらのシステムは深刻なセキュリティ、プライバシー、安全上の懸念を提起する。
基本的に、これらのシステムが提供する機能の完全なセットは、確率的実行フローと組み合わさって、事前には分かっていない。
このような特徴が欠如していることを考えると、システムがユーザの意図したタスクをうまく実行したかどうかを検証することは簡単ではない。
本稿では,エージェントシステムにこの問題を解決するためのフレームワークであるAgent-Sentryを提案する。
私たちのキーとなる洞察は、エージェントシステムは特定のユースケースのために設計されており、従って非有界あるいは不特定機能を公開する必要はないということです。
一度バウンドされると、これらのシステムはより精査しやすくなる。
Agent-Sentryはこの洞察を運用し、エージェントシステムが提供する頻繁な機能と実行トレースを明らかにし、振る舞い境界を構築する。
そして、これらのトレースからポリシーを学び、学習した振る舞いから逸脱するツールコールをブロックする。
我々の評価によると、Agent-Sentryは、98%のシステムユーティリティを保ちながら、アウトオブバウンドの実行をトリガーする攻撃の90%以上を防ぎます。
関連論文リスト
- Tracking Capabilities for Safer Agents [2.9897366166831265]
ツールを直接呼び出す代わりに、エージェントは機能安全な言語でコードとして意図を表現している。
Scalaの型システムは静的に機能を追跡し、エージェントができることをきめ細かいコントロールを提供する。
実験の結果,エージェントはタスク性能を著しく損なうことなく,機能セーフなコードを生成することができることがわかった。
論文 参考訳(メタデータ) (2026-03-01T08:39:37Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。
これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。
この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:53:25Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Benchmarking the Robustness of Agentic Systems to Adversarially-Induced Harms [31.01865239234458]
本稿では,エージェントから有害な作用を誘発する攻撃に対するエージェントシステムの堅牢性を評価する。
本稿では,エージェントシステムに対する害の新たな分類法と,新たなベンチマークであるBAD-ACTSを提案する。
BAD-ACTSは、異なるアプリケーション環境におけるエージェントシステムの4つの実装と、有害なアクションの188の高品質な例のデータセットで構成されている。
論文 参考訳(メタデータ) (2025-08-22T15:53:22Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Towards Action Hijacking of Large Language Model-based Agent [23.13653350521422]
LLMベースのアプリケーションのアクションプランを操作するための新しい攻撃であるAI$mathbf2$を紹介する。
まず、被害者のアプリケーションからアクション認識の知識を収集する。
このような知識に基づいて、攻撃者は誤解を招く入力を生成することができ、LLMを誤解して有害なアクションプランを生成することができる。
論文 参考訳(メタデータ) (2024-12-14T12:11:26Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。