論文の概要: PocketAgents: A Manifest-Driven Library of Autonomous Defense Agents
- arxiv url: http://arxiv.org/abs/2605.21694v1
- Date: Wed, 20 May 2026 19:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.980608
- Title: PocketAgents: A Manifest-Driven Library of Autonomous Defense Agents
- Title(参考訳): PocketAgents: 自律防衛エージェントのマニファスト駆動ライブラリ
- Authors: Sidnei Barbieri, Ágney Lopes Roth Ferraz, Lourenço Alves Pereira Júnior,
- Abstract要約: 本稿では,自律型防衛エージェントのマニフェスト駆動型ライブラリであるPocketAgentsを紹介する。
各エージェントは、マニフェスト、プロンプト、ランタイムコンテキストの3つのデータファイルとしてインストールされる。
実験により、型付き境界はLLM駆動の防御を測定可能で、測定可能で、帰属可能であることが示された。
- 参考スコア(独自算出の注目度): 0.589889361990138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Connecting large language models (LLMs) to defensive enforcement requires more than asking a model whether an attack is happening. A defender must decide which model outputs may change the system state, which outputs must be rejected, and how failures should be recorded. We present PocketAgents, a manifest-driven library of autonomous defense agents. Each agent is installed as three data files: a manifest, a prompt, and a runtime context. The shared runtime gives the agent bounded telemetry access and accepts only typed reports whose requested action appears in the manifest. We implemented PocketAgents on top of a cyber arena (Perry), a cyber-deception testbed, and evaluated two agents, Command and Control and Exfiltration, in 18 closed-loop trials of a DarkSide-inspired attack on a small enterprise topology. Thirteen trials produced validated network-block actions and contained the attack; four failed schema validation; one produced a valid no-action decision. The experiments show that a typed boundary makes LLM-driven defense measurable, extensible, and attributable.
- Abstract(参考訳): 大規模言語モデル(LLM)を防衛執行機関に接続するには、攻撃が発生しているかどうかをモデルに尋ねる以上のことが必要である。
ディフェンダーは、どのモデル出力がシステム状態を変えるか、どの出力を拒否するか、どのように失敗を記録するかを決定する必要がある。
本稿では,自律型防衛エージェントのマニフェスト駆動型ライブラリであるPocketAgentsを紹介する。
各エージェントは、マニフェスト、プロンプト、ランタイムコンテキストの3つのデータファイルとしてインストールされる。
共有ランタイムは、エージェントに境界付きテレメトリアクセスを与え、要求されたアクションがマニフェストに現れるタイプされたレポートのみを受け入れる。
我々はサイバー・アリーナ(Perry)上にPocketAgentsを実装し、DarkSideにインスパイアされた小さな企業トポロジーに対する18のクローズループ・トライアルにおいて、2つのエージェント、Command and Control and Exfiltrationを評価した。
13のトライアルで検証されたネットワークブロックアクションが生成され、攻撃が含まれ、4つのスキーマ検証が失敗した。
実験の結果, タイプ境界はLDM駆動型防御を測定可能で, 拡張可能で, 帰属できることがわかった。
関連論文リスト
- When Child Inherits: Modeling and Exploiting Subagent Spawn in Multi-Agent Networks [4.0552376861221635]
我々は、サブエージェント継承のレンズを通して、現代のマルチエージェントネットワークをモデル化する。
我々の分析によると、現在のフレームワークは、安全でないメモリ継承、リソース制御の弱い、スポーニング後の古い状態、不適切な終了権限を通じて、信頼境界に違反する可能性がある。
論文 参考訳(メタデータ) (2026-05-08T20:27:23Z) - WebAgentGuard: A Reasoning-Driven Guard Model for Detecting Prompt Injection Attacks in Web Agents [117.65855863464863]
Webエージェントはインジェクション攻撃に対して非常に脆弱である。
システム・プロンプト・ディフェンス(英語版)やエージェントの直接微調整を含む既存の防御は、効果が限られている。
本稿では,WebAgentGuardを導入し,インジェクション検出のためのマルチモーダルガードモデルを提案する。
論文 参考訳(メタデータ) (2026-04-14T04:50:35Z) - Visual Confused Deputy: Exploiting and Defending Perception Failures in Computer-Using Agents [9.457255218406333]
コンピュータ利用エージェント(CUA)はグラフィカルユーザインタフェースに直接作用するが、画面に対する認識は信頼できないことが多い。
我々は、エージェントが誤認識された画面状態に基づいてアクションを認可する障害モードである視覚的混乱副産物を形式化する。
この脅威を軽減するため,エージェントの知覚ループ外で動作する最初のガードレールを提案する。
論文 参考訳(メタデータ) (2026-03-16T01:31:32Z) - AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification [25.817251923574286]
大規模言語モデル(LLM)エージェントのための新しい推論時間検出・緩和フレームワークを提案する。
AgentSentryは、時間的因果的テイクオーバーとしてマルチターンIPIをモデル化する最初の推論時防御である。
我々は, textscAgentDojo ベンチマークにおいて, 4つのタスクスイート, 3つの IPI 攻撃ファミリー, 複数のブラックボックス LLM に対する AgentSentry の評価を行った。
論文 参考訳(メタデータ) (2026-02-26T07:59:10Z) - Zero-Permission Manipulation: Can We Trust Large Multimodal Model Powered GUI Agents? [6.9619059967556725]
アクションリバインド(Action Rebinding)は、エージェントの実行をリバインドする危険な権限をゼロにする、一見良心的なアプリを可能にする、新たな攻撃である。
エージェントのタスク回復ロジックとAndroidのUI状態保存を武器化し、プログラム可能なマルチステップアタックチェーンを編成する。
以上の結果から,原子間相互作用リバインディングの成功率は100%であり,マルチステップアタックチェーンを確実にオーケストレーションできることが示唆された。
論文 参考訳(メタデータ) (2026-01-18T10:54:54Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。