論文の概要: AegisUI: Behavioral Anomaly Detection for Structured User Interface Protocols in AI Agent Systems
- arxiv url: http://arxiv.org/abs/2603.05031v1
- Date: Thu, 05 Mar 2026 10:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.183935
- Title: AegisUI: Behavioral Anomaly Detection for Structured User Interface Protocols in AI Agent Systems
- Title(参考訳): AegisUI:AIエージェントシステムにおける構造化ユーザインタフェースプロトコルの動作異常検出
- Authors: Mohd Safwan Uddin, Saba Hajira,
- Abstract要約: 現在のディフェンスは構文上停止する。このような動作ミスマッチをキャッチするために構築されることはない。
AegisUIは構造化されたUIペイロードを生成し、それらに現実的な攻撃を注入し、数値的特徴を抽出し、エンドツーエンドで異常検出をベンチマークする。
5つのアプリケーションドメインと5つのアタックファミリーにまたがる4000のラベル付きペイロードを生成しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents that build user interfaces on the fly assembling buttons, forms, and data displays from structured protocol payloads are becoming common in production systems. The trouble is that a payload can pass every schema check and still trick a user: a button might say "View invoice" while its hidden action wipes an account, or a display widget might quietly bind to an internal salary field. Current defenses stop at syntax; they were never built to catch this kind of behavioral mismatch. We built AegisUI to study exactly this gap. The framework generates structured UI payloads, injects realistic attacks into them, extracts numeric features, and benchmarks anomaly detectors end-to-end. We produced 4000 labeled payloads (3000 benign, 1000 malicious) spanning five application domains and five attack families: phishing interfaces, data leakage, layout abuse, manipulative UI, and workflow anomalies. From each payload we extracted 18 features covering structural, semantic, binding, and session dimensions, then compared three detectors: Isolation Forest (unsupervised), a benign-trained autoencoder (semi-supervised), and Random Forest (supervised). On a stratified 80/20 split, Random Forest scored best overall (accuracy 0.931, precision 0.980, recall 0.740, F1 0.843, ROC-AUC 0.952). The autoencoder came second (F1 0.762, ROC-AUC 0.863) and needs no malicious labels at training time, which matters when deploying a new system that lacks attack history. Per-attack-type analysis showed that layout abuse is easiest to catch while manipulative UI payloads are hardest. All code, data, and configurations are released for full reproducibility.
- Abstract(参考訳): オンザフライでユーザインターフェースを構築するAIエージェントは、構造化プロトコルペイロードからのボタン、フォーム、データディスプレイがプロダクションシステムで一般的になっています。
問題なのは、ペイロードがすべてのスキーマチェックをパスして、ユーザを騙すことができることだ。ボタンが"View Invoice"と言うと、その隠れアクションがアカウントを消去する、あるいはディスプレイウィジェットが内部の給与フィールドに静かにバインドする、といったことだ。
現在のディフェンスは構文上停止する。このような動作ミスマッチをキャッチするために構築されることはない。
私たちはこのギャップを正確に研究するためにAegisUIを構築しました。
このフレームワークは構造化されたUIペイロードを生成し、現実的な攻撃を注入し、数値的特徴を抽出し、ベンチマークによってエンドツーエンドに異常検出を行う。
フィッシングインターフェース、データ漏洩、レイアウトの乱用、操作UI、ワークフロー異常といった5つのアプリケーションドメインと5つのアタックファミリーにまたがる4000のラベル付きペイロード(3000の良心、1000の悪意のある)を作成しました。
それぞれのペイロードから、構造、セマンティック、バインディング、セッションの次元をカバーする18の特徴を抽出し、分離森林(unsupervised)、良性訓練されたオートエンコーダ(semi-supervised)、ランダムフォレストの3つの検出器を比較した。
階層化された80/20の分割で、ランダムフォレストは総合的に最高のスコア(精度0.931、精度0.980、リコール0.740、F1 0.843、ROC-AUC 0.952)を得た。
オートエンコーダは第2位(F1 0.762, ROC-AUC 0.863)で、トレーニング時に悪意のあるラベルを必要としない。
攻撃単体分析の結果、レイアウトの悪用は、操作型のUIペイロードが最も困難であるのに対して、キャッチが最も容易であることがわかった。
すべてのコード、データ、設定が完全な再現性のためにリリースされます。
関連論文リスト
- Synthesizing the Kill Chain: A Zero-Shot Framework for Target Verification and Tactical Reasoning on the Edge [12.201060368447251]
本稿では,コンパクトな視覚言語モデル(VLM)を用いた軽量物体検出を実現する階層型ゼロショットフレームワークを提案する。
我々は,このパイプラインを,偽陽性フィルタリング(100%精度),損傷評価(97.5%),きめ細かい車両分類(55-90%)の3つのタスクで,バトルフィールド6の55個の高忠実合成ビデオ上で評価した。
論文 参考訳(メタデータ) (2026-02-10T23:00:19Z) - Structural Representations for Cross-Attack Generalization in AI Agent Threat Detection [0.0]
構造的トークン化を導入し、会話内容ではなく実行フローパターン(ツール呼び出し、引数、観察)を符号化する。
言語的特徴を必要とする攻撃に対して,両表現を適応的に組み合わせたゲート型多視点融合を提案する。
我々の発見によると、AIエージェントのセキュリティは基本的に構造的な問題であり、アタックセマンティクスはサーフェス言語ではなく実行パターンに存在する。
論文 参考訳(メタデータ) (2026-01-05T01:51:40Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Every Character Counts: From Vulnerability to Defense in Phishing Detection [22.101976874889147]
組織と個人の両方をターゲットにしたフィッシング攻撃は、ますます重大な脅威になりつつある。
現在の自動検出法は、しばしば新しいフィッシング攻撃を検出するための説明性や堅牢性を欠いている。
本研究では,フィッシング検出における文字レベル深層学習モデルの有効性について検討する。
論文 参考訳(メタデータ) (2025-09-24T22:03:30Z) - AI-Driven Cybersecurity Threat Detection: Building Resilient Defense Systems Using Predictive Analytics [0.7273611076094216]
本研究では、人工知能が米国のサイバー脅威の特定と緩和にどのように役立つかを検討する。
侵入検知、マルウェア分類、フィッシング検出、およびインサイダー脅威分析について調べる。
論文 参考訳(メタデータ) (2025-08-02T16:03:35Z) - $\texttt{Droid}$: A Resource Suite for AI-Generated Code Detection [75.6327970381944]
$textbf$textttDroidCollection$$は、機械生成コード検出器のトレーニングと評価のためのオープンデータスイートである。
これには100万以上のコードサンプル、7つのプログラミング言語、43のコーディングモデルからの出力、3つの実世界のコーディングドメインが含まれている。
また、$textttDroidCollection$$でマルチタスクでトレーニングされたエンコーダのみの検出器も開発しています。
論文 参考訳(メタデータ) (2025-07-11T12:19:06Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors [52.85182605005619]
トレーニング中にベンチマークテストセットを使用したモデルを識別するためにバックドアアタックを利用するフレームワークであるDiePackを紹介します。
銀行が染料パックにお金を混ぜて強盗をマークするのと同じように、DiePackはバックドアのサンプルとテストデータとを混ぜて、その上で訓練されたモデルのフラグを立てる。
我々はDiePackを3つのデータセットにわたる5つのモデルで評価し、複数の選択とオープンな生成タスクの両方をカバーした。
論文 参考訳(メタデータ) (2025-05-29T02:22:14Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - Nosy Layers, Noisy Fixes: Tackling DRAs in Federated Learning Systems using Explainable AI [4.6383368787236385]
フェデレートラーニング(FL)は、協調モデルトレーニングの強力なパラダイムとして登場した。
データレコンストラクション攻撃(DRA)に弱い。
DRArmorは、DRAのターゲット検出と緩和戦略とExplainable AIを統合した、新しい防御機構である。
論文 参考訳(メタデータ) (2025-05-16T07:28:15Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。