論文の概要: Randomized Controlled Trials for Phishing Triage Agent
- arxiv url: http://arxiv.org/abs/2511.13860v1
- Date: Mon, 17 Nov 2025 19:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.762597
- Title: Randomized Controlled Trials for Phishing Triage Agent
- Title(参考訳): フィッシングトリアージ剤のランダム化制御試験
- Authors: James Bono,
- Abstract要約: 本稿では,ドメイン固有のAIエージェントがアナリストの生産性と精度に与える影響を評価するために,最初のランダム化制御試験(RCT)を提案する。
エージェント強化アナリストは、アナリスト毎分あたりの真正値の最大6.5倍、予測精度がコントロールグループに比べて77%向上した。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Security operations centers (SOCs) face a persistent challenge: efficiently triaging a high volume of user-reported phishing emails while maintaining robust protection against threats. This paper presents the first randomized controlled trial (RCT) evaluating the impact of a domain-specific AI agent - the Microsoft Security Copilot Phishing Triage Agent - on analyst productivity and accuracy. Our results demonstrate that agent-augmented analysts achieved up to 6.5 times as many true positives per analyst minute and a 77% improvement in verdict accuracy compared to a control group. The agent's queue prioritization and verdict explanations were both significant drivers of efficiency. Behavioral analysis revealed that agent-augmented analysts reallocated their attention, spending 53% more time on malicious emails, and were not prone to rubber-stamping the agent's malicious verdicts. These findings offer actionable insights for SOC leaders considering AI adoption, including the potential for agents to fundamentally change the optimal allocation of SOC resources.
- Abstract(参考訳): セキュリティ運用センター(SOC)は、脅威に対する堅牢な保護を維持しながら、大量のユーザ報告されたフィッシングメールを効率的にトリガする、という永続的な課題に直面している。
本稿では、ドメイン固有のAIエージェントであるMicrosoft Security Copilot Phishing Triage Agentが、アナリストの生産性と正確性に与える影響を評価する最初のランダム化制御試験(RCT)を提案する。
分析の結果,エージェント強化分析では,分析分あたりの正の数の最大6.5倍,評価精度がコントロール群に比べて77%向上したことがわかった。
エージェントのキューの優先順位付けと検証説明はどちらも効率の重要な要因であった。
行動分析により、エージェント強化されたアナリストが注意を向け、悪意のあるメールに53%の時間を費やし、エージェントの悪意のある判断をゴムで締め付ける傾向がないことが明らかになった。
これらの発見は、エージェントがSOCリソースの最適な割り当てを根本的に変更する可能性を含む、AIの採用を検討するSOCリーダーに実用的な洞察を提供する。
関連論文リスト
- Randomized Controlled Trials for Conditional Access Optimization Agent [0.9558392439655014]
Microsoft Entraにおける条件アクセス(CA)ポリシー管理のためのAIエージェントの評価を行った最初のランダム化制御試験(RCT)の結果を報告する。
エージェントアクセスは、精度が48%向上し、タスク完了時間が43%低下し、精度が一定であった。
これらの結果から, 汎用AIエージェントは, アイデンティティ管理における速度と精度の両方を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-11-17T19:33:03Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文 参考訳(メタデータ) (2025-07-18T18:06:27Z) - Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。
本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。
私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文 参考訳(メタデータ) (2025-07-08T18:24:28Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Robustness Testing for Multi-Agent Reinforcement Learning: State
Perturbations on Critical Agents [2.5204420653245245]
MARL(Multi-Agent Reinforcement Learning)は、スマート交通や無人航空機など、多くの分野に広く応用されている。
本研究は,MARLのための新しいロバストネステストフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-09T02:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。