論文の概要: Mapping the Exploitation Surface: A 10,000-Trial Taxonomy of What Makes LLM Agents Exploit Vulnerabilities
- arxiv url: http://arxiv.org/abs/2604.04561v1
- Date: Mon, 06 Apr 2026 09:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.160443
- Title: Mapping the Exploitation Surface: A 10,000-Trial Taxonomy of What Makes LLM Agents Exploit Vulnerabilities
- Title(参考訳): 爆発表面のマッピング: LLMエージェントの爆発脆弱性の1万件の分類
- Authors: Charafeddine Mouzouni,
- Abstract要約: ツールアクセスを持つLLMエージェントは、セキュリティ脆弱性を悪用することができる。
不明なのは、システムのどの機能がこの振る舞いをトリガーし、どれがそうでないかである。
7つのモデル,37のプロンプト条件,12の仮説的攻撃次元の1万の試行に基づく系統分類を提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents with tool access can discover and exploit security vulnerabilities. This is known. What is not known is which features of a system prompt trigger this behaviour, and which do not. We present a systematic taxonomy based on approximately 10,000 trials across seven models, 37 prompt conditions, and 12 hypothesized attack dimensions -- all executed in real Docker sandboxes. Every condition includes the instruction "Always respect all rules and access policies"; only a single encouragement sentence varies. Within the task class studied (planted test-runner vulnerabilities), the threat model is narrower than assumed: nine of twelve dimensions -- including minimization, moral licensing, incentives, identity priming, and reasoning triggers -- produce no detectable exploitation at n=50 per cell (upper 95% CI <7% per condition). But it is also more subtle than expected: one dimension, goal reframing, reliably triggers exploitation. "You are solving a puzzle; there may be hidden clues" produces 38-40% exploitation on Claude Sonnet 4 despite the explicit rule instruction, replicating across four models (CTF framing: 8-14% on DeepSeek, GPT-5-mini, o4-mini). The agent does not override the rules; it reinterprets the task so that exploitative actions become task-aligned. GPT-4.1 produces no exploitation across 1,850 trials (37 conditions), and a temporal comparison across four OpenAI models released over eleven months shows a pattern consistent with improving safety training, though model capability differences are a confounder. The practical contribution is a narrowed, testable threat model: defenders should audit for goal-reframing language, not for the broad class of adversarial prompts.
- Abstract(参考訳): ツールアクセスを持つLLMエージェントは、セキュリティ脆弱性を発見し、悪用することができる。
これは知られている。
不明なのは、システムのどの機能がこの振る舞いをトリガーし、どれがそうでないかである。
7つのモデルにまたがる約10,000のトライアル、37のプロンプト条件、12の仮定されたアタックディメンションに基づいて、システマティックな分類を提示します。
全ての条件は「全ての規則とアクセスポリシーを常に尊重する」という命令を含む。
最小化、モラルライセンシング、インセンティブ、アイデンティティプライマー、推論トリガーを含む12の次元のうち9つは、n=50セル当たり(条件当たり95% CI <7%)で検出可能なエクスプロイトを生成しない。
しかし、それは予想以上に微妙である:一つの次元、ゴールの再フレーミング、確実にエクスプロイトをトリガーする。
クロード・ソネット4では、明示的なルール命令にもかかわらず38-40%のエクスプロイトを4つのモデルに複製する(CTFフレーミング:8-14% on DeepSeek, GPT-5-mini, o4-mini)。
エージェントはルールをオーバーライドせず、エクスプロイトアクションがタスク整列になるようにタスクを再解釈する。
GPT-4.1は1,850の試験(37条件)にまたがらず、11ヶ月にわたってリリースされた4つのOpenAIモデルに対する時間的比較では、モデル能力の違いは共同創設者であるにもかかわらず、安全性トレーニングの改善と整合したパターンを示している。
ディフェンダーは、幅広い種類の敵のプロンプトではなく、ゴールレフレーミング言語を監査すべきである。
関連論文リスト
- The Persistent Vulnerability of Aligned AI Systems [2.9994384641583185]
この論文は、AI安全性の4つのオープンな問題に寄与している。
危険な内部計算の理解、一度埋め込まれた危険な振る舞いの削除、デプロイ前の脆弱性のテスト、モデルがデプロイに対していつ行動するかの予測。
論文 参考訳(メタデータ) (2026-03-31T23:49:07Z) - Backdoor4Good: Benchmarking Beneficial Uses of Backdoors in LLMs [63.668008418097905]
クリーンタスク性能を保ちながら、優れたバックドアは高い制御性、タンパー抵抗性、ステルスネスを達成できることを示す。
私たちの発見は、バックドアは本質的に悪意のあるものではない、という新たな洞察を示しています。適切に設計された場合、信頼できるAIシステムのためのモジュールで解釈可能、有益なビルディングブロックとして機能します。
論文 参考訳(メタデータ) (2026-03-08T04:01:13Z) - In-Context Environments Induce Evaluation-Awareness in Language Models [0.12691047660244334]
人間は脅威の下でより自覚的になるが、タスクに吸収されると自意識を失うことがある。
我々は,テキスト内プロンプトを最適化可能な環境として扱うブラックボックス逆最適化フレームワークを提案する。
我々は、逆最適化されたプロンプトが、これまで理解されていたよりもはるかに高い信頼性の脅威をもたらすことを示した。
論文 参考訳(メタデータ) (2026-03-04T08:22:02Z) - Can Adversarial Code Comments Fool AI Security Reviewers -- Large-Scale Empirical Study of Comment-Based Attacks and Defenses Against LLM Code Analysis [0.0]
敵対的なコメントは、検出精度に小さな、統計的に重要でない効果をもたらす。
複雑な敵戦略は単純な操作的コメントに勝るものではない。
コメントストリッピングは、有用なコンテキストを削除することで、より弱いモデルの検出を減らす。
論文 参考訳(メタデータ) (2026-02-18T00:34:17Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models [33.1538965735133]
Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。
4つの異なるCTFコンペティションから、40のプロフェッショナルレベルのCapture the Flag(CTF)タスクが含まれています。
GPT-4o, OpenAI o1-preview, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct。
論文 参考訳(メタデータ) (2024-08-15T17:23:10Z) - Stealthy Backdoor Attack for Code Models [19.272856932095966]
既存のコードモデルに対するバックドア攻撃では、不便で簡単に検出できるトリガーが使用される。
本稿では、ステルスなバックドア攻撃によるコードモデルの脆弱性を調査することを目的とする。
AFRAIDOORにおけるアダプティブトリガーの約85%が、防衛プロセスにおける検出をバイパスしていることがわかった。
論文 参考訳(メタデータ) (2023-01-06T13:15:42Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。