論文の概要: A Low-Latency Fraud Detection Layer for Detecting Adversarial Interaction Patterns in LLM-Powered Agents
- arxiv url: http://arxiv.org/abs/2605.01143v1
- Date: Fri, 01 May 2026 22:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.60777
- Title: A Low-Latency Fraud Detection Layer for Detecting Adversarial Interaction Patterns in LLM-Powered Agents
- Title(参考訳): LLMエージェントの逆相互作用パターン検出のための低遅延き裂検出層
- Authors: Sheldon Yu, Yingcheng Sun, Hanqing Guo, Julian McAuley, Qianqian Tong,
- Abstract要約: 大規模言語モデル(LLM)を利用したエージェントは、自律的なタスク実行、ツールの使用、多段階推論において強力な能力を示す。
敵対的相互作用は、直接的プロンプトインジェクション、間接的コンテンツアタック、マルチターンエスカレーション戦略を通じてエージェントの動作を操作できる。
LLMエージェントの逆相互作用パターンを検出するために,低レイテンシな不正検出層を提案する。
- 参考スコア(独自算出の注目度): 18.524016493711386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-powered agents demonstrate strong capabilities in autonomous task execution, tool use, and multi-step reasoning. However, their increasing autonomy also introduces a new attack surface: adversarial interactions can manipulate agent behavior through direct prompt injection, indirect content attacks, and multi-turn escalation strategies. Existing defense strategies focus on prompt-level filtering and rule-based guardrails, which are often insufficient when risk emerges gradually across interaction sequences. In this work, we propose a complementary defense mechanism: a low-latency fraud detection layer for detecting adversarial interaction patterns in LLM-powered agents. Instead of determining whether a single prompt is malicious, our approach models risk over interaction trajectories using structured runtime features derived from prompt characteristics, session dynamics, tool usage, execution context, and fraud-inspired signals. The detection layer can be implemented using lightweight models leading to low-latency real-time deployments. To evaluate the framework, we construct a synthetic corpus of 12,000 multi-turn agent interactions generated from parameterized templates that simulate realistic agentic workflows. Using 42 structured features and an XGBoost classifier, our detector achieves over 9 times faster than LLM-based detectors. Through the experiment and ablation studies, our work suggests that interaction-level behavioral detection should become a core component of deployment-time defense for LLM-powered agents.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したエージェントは、自律的なタスク実行、ツールの使用、多段階推論において強力な能力を示す。
敵対的相互作用は、直接的プロンプト注入、間接的コンテンツアタック、マルチターンエスカレーション戦略を通じてエージェントの動作を操作できる。
既存の防衛戦略は、プロンプトレベルのフィルタリングとルールベースのガードレールに重点を置いている。
本研究では,LDMエージェントの対向的相互作用パターンを検出するための低遅延不正検出層として,補完的な防御機構を提案する。
1つのプロンプトが悪意があるかどうかを決定する代わりに、我々のアプローチは、プロンプト特性、セッションダイナミクス、ツールの使用状況、実行状況、不正にインスパイアされた信号から派生した構造化されたランタイム機能を使用して、インタラクショントラジェクトリよりもリスクをモデル化する。
検出層は、低レイテンシのリアルタイムデプロイメントにつながる軽量モデルを使用して実装することができる。
このフレームワークを評価するために,現実的なエージェントワークフローをシミュレートするパラメータ化テンプレートから生成される12,000のマルチターンエージェントインタラクションの合成コーパスを構築した。
構造的特徴42とXGBoost分類器を用いて,LLM検出器の9倍以上の高速化を実現した。
実験およびアブレーション研究を通じて, 相互作用レベルの行動検出が, LLMエージェントの展開時防御のコアコンポーネントとなることが示唆された。
関連論文リスト
- GAMMAF: A Common Framework for Graph-Based Anomaly Monitoring Benchmarking in LLM Multi-Agent Systems [0.42970700836450487]
本稿では,オープンソースのベンチマークプラットフォームであるGammaf(LLM Multi-Agent System Framework用のグラフベースの異常モニタリング)を紹介する。
Gammafは、新しい防御機構ではなく、合成マルチエージェントインタラクションデータセットを生成するために設計された包括的な評価アーキテクチャである。
論文 参考訳(メタデータ) (2026-04-27T13:45:14Z) - WebAgentGuard: A Reasoning-Driven Guard Model for Detecting Prompt Injection Attacks in Web Agents [117.65855863464863]
Webエージェントはインジェクション攻撃に対して非常に脆弱である。
システム・プロンプト・ディフェンス(英語版)やエージェントの直接微調整を含む既存の防御は、効果が限られている。
本稿では,WebAgentGuardを導入し,インジェクション検出のためのマルチモーダルガードモデルを提案する。
論文 参考訳(メタデータ) (2026-04-14T04:50:35Z) - Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2026-02-10T10:16:27Z) - ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。
LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。
次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文 参考訳(メタデータ) (2026-01-15T07:54:32Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Searching for Privacy Risks in LLM Agents via Simulation [61.229785851581504]
本稿では,プライバシクリティカルなエージェントインタラクションのシミュレーションを通じて,攻撃と防御戦略の改善を交互に行う検索ベースのフレームワークを提案する。
攻撃戦略は、直接の要求から、不正行為や同意偽造といった高度な戦術へとエスカレートする。
発見された攻撃と防御は、さまざまなシナリオやバックボーンモデルにまたがって伝達され、プライバシーに配慮したエージェントを構築するための強力な実用性を示している。
論文 参考訳(メタデータ) (2025-08-14T17:49:09Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - GUARDIAN: Safeguarding LLM Multi-Agent Collaborations with Temporal Graph Modeling [5.798273384241793]
大規模言語モデル (LLM) は、複雑な対話や多ターン対話を行えるインテリジェントエージェントの開発を可能にする。
GUARDIANは、GUARDing Intelligent Agent ColllaboratioNsにおいて、複数の安全上の懸念を検出し緩和する方法である。
論文 参考訳(メタデータ) (2025-05-25T17:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。