論文の概要: Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection
- arxiv url: http://arxiv.org/abs/2603.04469v1
- Date: Wed, 04 Mar 2026 01:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.909393
- Title: Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection
- Title(参考訳): 入力ガードレールを超えて:実行型攻撃検出のためのクロスエージェントセマンティックフローの再構築
- Authors: Yangyang Wei, Yijie Xu, Zhenyuan Li, Xiangmin Shen, Shouling Ji,
- Abstract要約: 静的な入力フィルタリングから実行対応分析へ、防御パラダイムをシフトするフレームワークであるSysNameを提案する。
SysNameは断片化された操作プリミティブを連続した行動軌跡に合成し、システムアクティビティの全体像を可能にする。
実証的な評価により、SysNameは10以上の異なる複合攻撃ベクトルを効果的に検出し、それぞれノードレベルとパスレベルのエンドツーエンド攻撃検出に対して85.3%と66.7%のF1スコアを達成した。
- 参考スコア(独自算出の注目度): 32.301679396929536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Agent System is emerging as the \textit{de facto} standard for complex task orchestration. However, its reliance on autonomous execution and unstructured inter-agent communication introduces severe risks, such as indirect prompt injection, that easily circumvent conventional input guardrails. To address this, we propose \SysName, a framework that shifts the defensive paradigm from static input filtering to execution-aware analysis. By extracting and reconstructing Cross-Agent Semantic Flows, \SysName synthesizes fragmented operational primitives into contiguous behavioral trajectories, enabling a holistic view of system activity. We leverage a Supervisor LLM to scrutinize these trajectories, identifying anomalies across data flow violations, control flow deviations, and intent inconsistencies. Empirical evaluations demonstrate that \SysName effectively detects over ten distinct compound attack vectors, achieving F1-scores of 85.3\% and 66.7\% for node-level and path-level end-to-end attack detection, respectively. The source code is available at https://anonymous.4open.science/r/MAScope-71DC.
- Abstract(参考訳): Multi-Agent System は複雑なタスクオーケストレーションのための \textit{de facto} 標準として登場している。
しかしながら、自律的な実行と非構造的なエージェント間通信に依存しているため、間接的なプロンプト注入のような深刻なリスクが生じ、従来の入力ガードレールを回避できる。
これを解決するために,静的な入力フィルタリングから実行認識分析へ,防御パラダイムをシフトするフレームワークである \SysName を提案する。
クロスエージェントセマンティックフローの抽出と再構成により、 \SysNameは断片化された操作プリミティブを連続した行動軌跡に合成し、システムアクティビティの全体像を可能にする。
スーパーバイザ LLM を利用してこれらのトラジェクトリを精査し、データフロー違反、制御フロー偏差、意図的不整合の異常を識別する。
実証的な評価では、SysNameは10以上の異なる複合攻撃ベクトルを効果的に検出し、それぞれ85.3\%と66.7\%のF1スコアをノードレベルとパスレベルのエンド・ツー・エンド・アタック検出のために達成している。
ソースコードはhttps://anonymous.4open.science/r/MAScope-71DCで公開されている。
関連論文リスト
- Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace [0.0]
自動生成されたURLプレビューに埋め込まれた敵対的命令は、サイレント・エクスプレスと呼ばれるシステムレベルのリスクをもたらす可能性があることを示す。
完全にローカルで再現可能なテストベッドを使用して、悪意のあるWebページがエージェントを誘導し、機密性の高いランタイムコンテキストを透過するアウトバウンドリクエストを発行できることを実証する。
qwen2.5:7bをベースとした480の実験では、攻撃は高い確率 (P (exress) =0.89) で成功し、95%の攻撃は出力ベースの安全チェックでは検出されない。
論文 参考訳(メタデータ) (2026-02-25T22:26:23Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Reasoning-Style Poisoning of LLM Agents via Stealthy Style Transfer: Process-Level Attacks and Runtime Monitoring in RSV Space [4.699272847316498]
Reasoning-Style Poisoning (RSP)は、エージェントが処理するものよりも情報を処理する方法を操作する。
Generative Style Injection (GSI)は、検索した文書を病的トーンに書き換える。
RSP-Mは軽量なランタイムモニタで、RSVメトリクスをリアルタイムで計算し、安全性の閾値を超える値にアラートをトリガーする。
論文 参考訳(メタデータ) (2025-12-16T14:34:10Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - ViSTR-GP: Online Cyberattack Detection via Vision-to-State Tensor Regression and Gaussian Processes in Automated Robotic Operations [5.95097350945477]
接続された工場と自動化された工場は、サイバーセキュリティのリスクが増大し、物理的運用に中断や損害をもたらす可能性がある。
データ統合攻撃は、攻撃者が運用データにアクセスし操作できるような高度な脆弱性を悪用することが多い。
本稿では、コントローラの権限外の頭上カメラからの視覚に基づく推定値に対して、エンコーダが報告した計測値を相互にチェックするオンライン検出フレームワークViSTR-GPを開発する。
論文 参考訳(メタデータ) (2025-09-13T19:10:35Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。