論文の概要: Structural Representations for Cross-Attack Generalization in AI Agent Threat Detection
- arxiv url: http://arxiv.org/abs/2601.01723v1
- Date: Mon, 05 Jan 2026 01:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.731147
- Title: Structural Representations for Cross-Attack Generalization in AI Agent Threat Detection
- Title(参考訳): AIエージェント脅威検出におけるクロスアタック一般化のための構造表現
- Authors: Vignesh Iyer,
- Abstract要約: 構造的トークン化を導入し、会話内容ではなく実行フローパターン(ツール呼び出し、引数、観察)を符号化する。
言語的特徴を必要とする攻撃に対して,両表現を適応的に組み合わせたゲート型多視点融合を提案する。
我々の発見によると、AIエージェントのセキュリティは基本的に構造的な問題であり、アタックセマンティクスはサーフェス言語ではなく実行パターンに存在する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous AI agents executing multi-step tool sequences face semantic attacks that manifest in behavioral traces rather than isolated prompts. A critical challenge is cross-attack generalization: can detectors trained on known attack families recognize novel, unseen attack types? We discover that standard conversational tokenization -- capturing linguistic patterns from agent interactions -- fails catastrophically on structural attacks like tool hijacking (AUC 0.39) and data exfiltration (AUC 0.46), while succeeding on linguistic attacks like social engineering (AUC 0.78). We introduce structural tokenization, encoding execution-flow patterns (tool calls, arguments, observations) rather than conversational content. This simple representational change dramatically improves cross-attack generalization: +46 AUC points on tool hijacking, +39 points on data exfiltration, and +71 points on unknown attacks, while simultaneously improving in-distribution performance (+6 points). For attacks requiring linguistic features, we propose gated multi-view fusion that adaptively combines both representations, achieving AUC 0.89 on social engineering without sacrificing structural attack detection. Our findings reveal that AI agent security is fundamentally a structural problem: attack semantics reside in execution patterns, not surface language. While our rule-based tokenizer serves as a baseline, the structural abstraction principle generalizes even with simple implementation.
- Abstract(参考訳): マルチステップツールシーケンスを実行する自律AIエージェントは、独立したプロンプトではなく、行動トレースに現れるセマンティックアタックに直面します。
既知の攻撃ファミリーで訓練された検出器は、新しい、目に見えない攻撃タイプを認識できますか?
標準的な会話トークン化 -- エージェントのインタラクションから言語パターンをキャプチャする -- は、ツールハイジャック(AUC 0.39)やデータ流出(AUC 0.46)のような構造的攻撃で破滅的に失敗し、社会工学(AUC 0.78)のような言語的攻撃で成功している。
構造的トークン化を導入し、会話内容ではなく実行フローパターン(ツール呼び出し、引数、観察)を符号化する。
この単純な表現的変化は、クロスアタックの一般化を劇的に改善する: +46 AUC はツールのハイジャック、+39 はデータ消去、+71 は未知の攻撃、+6 は同時に分散性能を向上する。
言語的特徴を必要とする攻撃に対して,両表現を適応的に組み合わせた多視点融合を提案し,構造的攻撃検出を犠牲にすることなく,社会工学におけるAUC 0.89を達成した。
我々の発見によると、AIエージェントのセキュリティは基本的に構造的な問題であり、アタックセマンティクスはサーフェス言語ではなく実行パターンに存在する。
ルールベースのトークン化器はベースラインとして機能するが、構造的抽象化の原則は単純な実装でも一般化される。
関連論文リスト
- SCOUT: A Defense Against Data Poisoning Attacks in Fine-Tuned Language Models [11.304852987259041]
本稿では,ドメイン固有の知識と意味的妥当性を活かした,コンテキスト認識型攻撃シナリオを3つ紹介する。
textbfSCOUT (Saliency-based Classification of Untrusted Tokens) はトークンレベルの塩分分析によりバックドアトリガを識別する新しい防御フレームワークである。
論文 参考訳(メタデータ) (2025-12-10T17:25:55Z) - Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。
本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。
適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-04T20:25:12Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。
我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文 参考訳(メタデータ) (2025-02-02T03:39:43Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。