論文の概要: Owner-Harm: A Missing Threat Model for AI Agent Safety
- arxiv url: http://arxiv.org/abs/2604.18658v1
- Date: Mon, 20 Apr 2026 10:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.389631
- Title: Owner-Harm: A Missing Threat Model for AI Agent Safety
- Title(参考訳): Owner-Harm:AIエージェントの安全性を損なう脅威モデル
- Authors: Dongcheng Zhang, Yiqing Jiang,
- Abstract要約: 既存のAI安全性ベンチマークは、一般的な犯罪被害に焦点を当てている。
本稿では,8つのカテゴリのエージェント動作がデプロイを損なう,正式な脅威モデルである Owner-Harm を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing AI agent safety benchmarks focus on generic criminal harm (cybercrime, harassment, weapon synthesis), leaving a systematic blind spot for a distinct and commercially consequential threat category: agents harming their own deployers. Real-world incidents illustrate the gap: Slack AI credential exfiltration (Aug 2024), Microsoft 365 Copilot calendar-injection leaks (Jan 2024), and a Meta agent unauthorized forum post exposing operational data (Mar 2026). We propose Owner-Harm, a formal threat model with eight categories of agent behavior damaging the deployer. We quantify the defense gap on two benchmarks: a compositional safety system achieves 100% TPR / 0% FPR on AgentHarm (generic criminal harm) yet only 14.8% (4/27; 95% CI: 5.9%-32.5%) on AgentDojo injection tasks (prompt-injection-mediated owner harm). A controlled generic-LLM baseline shows the gap is not inherent to owner-harm (62.7% vs. 59.3%, delta 3.4 pp) but arises from environment-bound symbolic rules that fail to generalize across tool vocabularies. On a post-hoc 300-scenario owner-harm benchmark, the gate alone achieves 75.3% TPR / 3.3% FPR; adding a deterministic post-audit verifier raises overall TPR to 85.3% (+10.0 pp) and Hijacking detection from 43.3% to 93.3%, demonstrating strong layer complementarity. We introduce the Symbolic-Semantic Defense Generalization (SSDG) framework relating information coverage to detection rate. Two SSDG experiments partially validate it: context deprivation amplifies the detection gap 3.4x (R = 3.60 vs. R = 1.06); context injection reveals structured goal-action alignment, not text concatenation, is required for effective owner-harm detection.
- Abstract(参考訳): 既存のAIエージェントの安全性ベンチマークでは、一般的な犯罪的被害(サイバー犯罪、ハラスメント、兵器合成)に焦点を当てており、個別かつ商業的な脅威カテゴリの体系的な盲点を残している。
Slack AIクレデンシャル・エクスプロイト(2024年8月)、Microsoft 365 Copilotカレンダインジェクションリーク(2024年8月)、運用データを公開しているMetaエージェントのフォーラムポスト(2026年8月)。
本稿では,8つのカテゴリのエージェント動作がデプロイを損なう,正式な脅威モデルである Owner-Harm を提案する。
構成安全システムはAgentHarmの100%TPR/0%FPRを達成するが、AgentDojoインジェクションタスクの14.8%(4/27;95% CI:5.9%-32.5%)しか達成しない(prompt-injection-mediated owner harm)。
コントロールされたジェネリックLLMベースラインでは、ギャップはオーナーハーム(62.7% vs. 59.3%, delta 3.4 pp)に固有のものではないが、ツール語彙全体にわたって一般化できない環境に縛られたシンボルルールから生じる。
ホール後の300-scenarioオーナーハームベンチマークでは、ゲートだけで75.3%のTPR/3.3%のFPRが達成され、決定論的ポスト監査検証器が全体のTPRを85.3%(+10.0pp)に引き上げ、ハイジャック検出は43.3%から93.3%に増加し、強い相補性を示している。
本稿では,情報カバレッジと検出率に関するシンボリック・セマンティック・ディフェンス・ジェネリゼーション(SSDG)フレームワークを紹介する。
2つのSSDG実験で部分的に検証されている: コンテキスト除去は検出ギャップを3.4x(R = 3.60 vs. R = 1.06)増幅する。
関連論文リスト
- Measuring the Permission Gate: A Stress-Test Evaluation of Claude Code's Auto Mode [9.116800340266066]
Claude Codeの自動モードは、AIコーディングエージェントに最初にデプロイされたパーミッションシステムである。
Anthropicは、生産トラフィックに対して0.4%の偽陽性率と17%の偽陰性率を報告している。
本研究では, 個々の行動レベルでの状態変化行動253件を, オラクル・グラウンドの真理に対して評価した。
論文 参考訳(メタデータ) (2026-04-04T17:56:30Z) - Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security? [10.248746359119625]
EVMbenchは、スマートコントラクトセキュリティに関するAIエージェントのための最初の大規模なベンチマークである。
その成果は、完全に自動化されたAI監査が到達範囲内にあるという期待を後押しした。
これらの発見は、完全に自動化されたAI監査が差し迫っているという物語に挑戦する。
論文 参考訳(メタデータ) (2026-03-11T14:07:16Z) - ILION: Deterministic Pre-Execution Safety Gates for Agentic AI Systems [0.0]
我々はエージェントAIシステムのための決定論的実行ゲートであるILIONを提案する。
ILIONは、統計的トレーニングやAPI依存なしに、提案されたエージェントアクションをBLOCKまたはALLOWに分類する。
ILIONは4.3F1ポイントを上回り、2000倍高速に動作し、偽陽性率を4倍下げている。
論文 参考訳(メタデータ) (2026-02-22T12:25:42Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Securing AI Agents Against Prompt Injection Attacks [0.0]
本稿では,RAG対応AIエージェントのインジェクションリスク評価のためのベンチマークを提案する。
本フレームワークは,攻撃速度を73.2%から8.7%に削減し,94.3%のベースラインタスク性能を維持した。
論文 参考訳(メタデータ) (2025-11-19T10:00:54Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。