論文の概要: Stable Agentic Control: Tool-Mediated LLM Architecture for Autonomous Cyber Defense
- arxiv url: http://arxiv.org/abs/2605.03034v1
- Date: Mon, 04 May 2026 18:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.585487
- Title: Stable Agentic Control: Tool-Mediated LLM Architecture for Autonomous Cyber Defense
- Title(参考訳): 安定したエージェント制御:自律型サイバー防御のためのツール媒介型LLMアーキテクチャ
- Authors: Kerri Prinos, Lilianne Brush, Cameron Denton, Zhanqi Wang, Joshua Knox, Snehal Antani, Anton Foltz, Amy Villaseñor,
- Abstract要約: 敵圧下における高い意思決定に関わるエージェントシステムは、既存のアプローチでは提供されない正式な保証が必要である。
LLMエージェントは決定論的ツールを使用し、ツール出力インタフェースで強制される有限アクションカタログから選択する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Agentic systems involved in high-stake decision-making under adversarial pressure need formal guarantees not offered by existing approaches. Motivated by the operational needs of security operations centers (SOCs) that must configure endpoint detection and response (EDR) policies under adversarial pressure, we present a tool-mediated architecture: LLM agents use deterministic tools (Stackelberg best-response, Bayesian observer updates, attack-graph primitives) and select from finite action catalogs enforced at the tool-output interface. A composite Lyapunov function machine-checked in Lean 4 with zero sorry certifies controllability, observability from asymmetric sensor data, and Input-to-State Stability (ISS) robustness under intelligent adversarial disturbance, with two corollaries extending the certificate to any controller or adversary from the catalogs. On 282 real enterprise attack graphs, the claims hold with margin. On paired offensive/defensive telemetry, a tool-mediated Claude Sonnet 4 controller reduces the attacker's expected payoff (game value) by 59% relative to a deterministic greedy baseline, with zero variance across 40 runs at four temperatures. A Claude Haiku 4.5 controller converges to suboptimal game values but stays catalog-bounded over an additional 40 runs, demonstrating that architectural stability is not dependent on the controller capability. The LLM agent's non-determinism furthers creative exploration of strategies, while the tool-mediated architecture ensures system stability.
- Abstract(参考訳): 敵圧下における高い意思決定に関わるエージェントシステムは、既存のアプローチでは提供されない正式な保証が必要である。
LLMエージェントは、決定論的ツール(Stackelbergベストレスポンス、ベイジアンオブザーバのアップデート、アタックグラフプリミティブ)を使用し、ツール出力インターフェースで強制される有限アクションカタログから選択する。
Lean 4で機械チェックされた複合リアプノフ関数は、制御可能性、非対称センサデータからの可観測性、インテリジェントな敵意障害下での入力-状態安定性(ISS)の堅牢性、および2つのカタログが証明書をカタログから任意のコントローラまたは敵に拡張する。
282の実際の企業攻撃グラフでは、主張はマージンを保っている。
対の攻撃的/防御的テレメトリでは、ツール経由のClaude Sonnet 4コントローラは、決定論的グリードベースラインに対して攻撃者の期待した支払い(ゲーム値)を59%減らし、40回の差分を4つの温度で実行する。
Claude Haiku 4.5コントローラは、最適以下のゲーム値に収束するが、追加の40回のランでカタログバウンドに留まり、アーキテクチャの安定性がコントローラ能力に依存しないことを示す。
LLMエージェントの非決定主義は戦略の創造的な探索をさらに促進し、ツールによるアーキテクチャはシステムの安定性を保証する。
関連論文リスト
- When the Agent Is the Adversary: Architectural Requirements for Agentic AI Containment After the April 2026 Frontier Model Escape [0.0]
本稿では,現在の封じ込めアプローチの4つのカテゴリについて分析する。
公開情報から5つの行動事象を分類し、698件の現実世界のAIスケジュールインシデントに分類する。
論文 参考訳(メタデータ) (2026-04-25T19:41:00Z) - SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment [19.947119280467934]
セーフハーネス(Safeharness)は、4つの防衛レイヤがエージェントライフサイクルに直接織られるセキュリティアーキテクチャである。
ベンチマークデータセットの安全性を、多様なハーネス構成で評価する。
論文 参考訳(メタデータ) (2026-04-15T08:59:00Z) - Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning [82.89535601592739]
マルチレベル検証を用いた自己進化型合成により,信頼性の高い基本ツール利用軌跡を生成する2段階パイプラインを提案する。
これらの拡張は、トラクタツール、間接的または曖昧なユーザクエリ、ノイズ、マルチフォーマット、あるいは誤ったツール出力を導入します。
本設計では,標準事例に対する参照マッチングによる報酬の自動計算と,エラー検出などの特別な動作に対する軽量な判断支援検証を実現する。
論文 参考訳(メタデータ) (2026-04-10T18:38:52Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations [38.49666480491258]
LLMエージェントは間接プロンプト注入(IPI)に対して非常に脆弱である
本稿では,特定のツールコールが生成される理由を問うことでエージェントをセキュアにする,アクションレベルの因果属性という新しいパラダイムを提案する。
我々はこのパラダイムを、並列対実テストに基づくランタイムディフェンスであるAttriGuardでインスタンス化する。
論文 参考訳(メタデータ) (2026-03-11T13:23:46Z) - Beyond Reward Suppression: Reshaping Steganographic Communication Protocols in MARL via Dynamic Representational Circuit Breaking [0.0]
監視を回避するためのプライベートプロトコルを開発するエージェントによるステガノグラフィーの共謀は、AIの安全性に重大な脅威をもたらす。
既存の防御は行動層や報酬層に限られており、潜伏する通信路での調整を検知できない。
本稿では,動的表現回路ブレーカ(DRCB)について紹介する。
論文 参考訳(メタデータ) (2026-03-07T04:14:38Z) - Cloud-OpsBench: A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems [51.2882705779387]
Cloud-OpsBenchは、State Snapshot Paradigmを使用して、クラウドの決定論的デジタルツインを構築する大規模なベンチマークである。
フルスタックにまたがる40の根本原因タイプに452の障害ケースがある。
論文 参考訳(メタデータ) (2026-02-28T05:04:42Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。