論文の概要: Enforcing Benign Trajectories: A Behavioral Firewall for Structured-Workflow AI Agents
- arxiv url: http://arxiv.org/abs/2604.26274v1
- Date: Wed, 29 Apr 2026 04:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.249446
- Title: Enforcing Benign Trajectories: A Behavioral Firewall for Structured-Workflow AI Agents
- Title(参考訳): 良性軌道の強制:構造化ワークフローAIエージェントの行動ファイアウォール
- Authors: Hung Dang,
- Abstract要約: codenameはテレメトリ駆動の動作異常検出ファイアウォールである。
codenameは検証済みの良性ツールコールテレメトリをパラメータ化された決定論的有限オートマトンにコンパイルする。
コードネームは5つのシナリオで5.6%のマクロ平均攻撃成功率(ASR)を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Structured-workflow agents driven by large language models execute tool calls against sensitive external environments. We propose \codename, a telemetry-driven behavioral anomaly detection firewall. Drawing on sequence-based intrusion detection, \codename\ compiles verified benign tool-call telemetry into a parameterized deterministic finite automaton (pDFA). The model defines permitted tool sequences, sequential contexts, and parameter bounds. At runtime, a lightweight gateway enforces these boundaries via an $O(1)$ state-transition structural lookup, shifting computationally expensive analysis entirely offline. Evaluated on the Agent Security Bench (ASB), \codename\ achieves a 5.6\% macro-averaged attack success rate (ASR) across five scenarios. Within three structured workflows, ASR drops to 2.2\%, outperforming Aegis, a state-of-the-art stateless scanner, at 12.8\%. \codename\ achieves 0\% ASR on multi-step and context-sequential attacks in structured settings. Furthermore, against 1,000 algorithmically spliced exfiltration payloads, only 1.4\% matched valid structural paths, all of which failed end-to-end string parameter guards (0 successes out of 14 surviving paths, 95\% CI [0\%, 23.2\%]). \codename\ introduces just 2.2~ms of per-call latency (a 3.7$\times$ speedup over \textsc{Aegis}) while maintaining a 2.0\% benign task failure rate (BTFR) on benign workloads. Modeling the behavioral trajectory effectively collapses the available attack surface, but unmaintained continuous parameter bounds remain vulnerable to synonym-substitution attacks (18\% evasion rate). Thus, exact-match whitelisting of sensitive parameters ultimately bears the final defensive load against execution.
- Abstract(参考訳): 大きな言語モデルによって駆動される構造化ワークフローエージェントは、機密性の高い外部環境に対してツールコールを実行する。
テレメトリ駆動型行動異常検知ファイアウォールである \codename を提案する。
シーケンスベースの侵入検出に基づいて、\codename\は検証された良性ツールコールテレメトリをパラメータ化決定論的有限オートマトン(pDFA)にコンパイルする。
このモデルは許容されるツールシーケンス、シーケンシャルコンテキスト、パラメータ境界を定義する。
実行時に、軽量ゲートウェイは、$O(1)$状態遷移構造的なルックアップを通じてこれらの境界を強制し、計算に高価な分析を完全にオフラインにします。
Agent Security Bench (ASB) に基づいて評価された \codename\ は、5つのシナリオで5.6\%のマクロ平均攻撃成功率 (ASR) を達成する。
3つの構造化ワークフローの中で、ASRは2.2\%に低下し、最先端のステートレススキャナであるAegisを12.8\%で上回っている。
\codename\は、構造化された設定におけるマルチステップおよびコンテキストシークエンシャルアタックで0\%のASRを達成する。
さらに、1000個のアルゴリズムでスプリケートされた抽出ペイロードに対して、有効な構造パスは1.4\%しか一致せず、いずれも終端から終端までの文字列パラメータガードが失敗した(残りの14つのパスのうち、0が成功し、95\% CI [0\%, 23.2\%])。
a 3.7$\times$ speedup over \textsc{Aegis}) をわずか2.2〜msで導入し、良質なワークロード上で2.0\%の良質なタスク障害率(BTFR)を維持している。
行動軌道のモデル化は、利用可能な攻撃面を効果的に破壊するが、維持されていない連続パラメータ境界は、同義置換攻撃(18 % 回避率)に弱いままである。
したがって、センシティブなパラメータの正確なマッチのホワイトリストは、最終的に実行に対する最終防御負荷を負う。
関連論文リスト
- The Cognitive Firewall:Securing Browser Based AI Agents Against Indirect Prompt Injection Via Hybrid Edge Cloud Defense [0.0]
Cognitive Firewallは3段階の分割計算アーキテクチャで、クライアントとクラウドにセキュリティチェックを分散する。
システムは、ローカルビジュアルセンチネル、クラウドベースのDeep Planner、実行時ポリシーを強制する決定論的ガードで構成される。
論文 参考訳(メタデータ) (2026-03-24T23:49:15Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Agentproof: Static Verification of Agent Workflow Graphs [0.0]
エージェントフレームワークは、ツール使用の振る舞いを明示的なワークフローグラフとしてエンコードする傾向にある。
本稿では,4つの主要なエージェントフレームワークから統合抽象グラフモデルを自動的に抽出するAgentproofを提案する。
汎用的なモデルチェッカーとは異なり、Agentproofは手動モデリングを必要としない。
論文 参考訳(メタデータ) (2026-03-20T13:56:20Z) - Synergistic Directed Execution and LLM-Driven Analysis for Zero-Day AI-Generated Malware Detection [0.12891210250935145]
自動マルウェア生成のためのLLMのウェポン化は、従来の検出パラダイムに現実的な脅威をもたらす。
本稿では,エスココール実行とエンフディープ学習に基づく脆弱性分類を組み合わせた,新しいハイブリッド分析フレームワークを提案する。
2,500 LLM合成サンプルからなるベンチマークでは、従来のマルウェアでは98.7%、AIによる脅威では97.5%の精度が達成されている。
論文 参考訳(メタデータ) (2026-03-10T00:25:41Z) - Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection [32.301679396929536]
静的な入力フィルタリングから実行対応分析へ、防御パラダイムをシフトするフレームワークであるSysNameを提案する。
SysNameは断片化された操作プリミティブを連続した行動軌跡に合成し、システムアクティビティの全体像を可能にする。
実証的な評価により、SysNameは10以上の異なる複合攻撃ベクトルを効果的に検出し、それぞれノードレベルとパスレベルのエンドツーエンド攻撃検出に対して85.3%と66.7%のF1スコアを達成した。
論文 参考訳(メタデータ) (2026-03-04T01:59:16Z) - Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents [18.383906296536185]
Traversal-as-Policy: サンドボックス化されたOpenHandsの実行ログを単一の実行可能なGated Behavior Tree (GBT)に蒸留する
各ノードは状態条件のアクションマクロを符号化し、成功した軌道からマージチェックを行う。
実行時に、軽量なトラバーサは、子マクロに対するベースモデルの意図と一致します。
論文 参考訳(メタデータ) (2026-01-30T16:25:08Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。