論文の概要: How Reliable Are AI Attackers Against a Fixed Vulnerable Target? A 400-Run Empirical Study of LLM Penetration Testing Consistency
- arxiv url: http://arxiv.org/abs/2605.30096v1
- Date: Thu, 28 May 2026 15:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.432178
- Title: How Reliable Are AI Attackers Against a Fixed Vulnerable Target? A 400-Run Empirical Study of LLM Penetration Testing Consistency
- Title(参考訳): AI攻撃者はいかに信頼できるのか? LLM侵入テストの400ランの実証研究
- Authors: Galip Tolga Erdem,
- Abstract要約: 大規模言語モデル(LLM)は、多段階のサイバー攻撃を自律的に行うことができるが、その攻撃行動の一貫性は調査されていない。
この研究は、Juice Shopをホストする同一のハニーポットに対して400ラン(4モデル、100台)の攻撃一貫性を実証した最初の大規模な実験的な測定結果を示す。
オーケストレータのワンショットの承認が0-1で再発効したコンテントの拒絶は、モデルでは発生しなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can autonomously conduct multi-stage cyber attacks, but the consistency of their offensive behavior under repeated trials remains unstudied. This work presents the first large-scale empirical measurement of LLM attack consistency: 400 autonomous penetration testing runs (4 models, 100 each) against an identical honeypot hosting OWASP Juice Shop and two additional vulnerable services, holding prompt, orchestrator, and target constant. No model emitted a content refusal that survived the orchestrator's one-shot authorization re-prompt at iterations 0-1. Claude Sonnet 4's API calls did encounter upstream service unavailability - 91 of 1,135 calls returned HTTP 529 overloaded_error during a documented Anthropic capacity event, truncating 39 of 100 Claude runs. An earlier draft catalogued these as safety refusals; on full-log audit they are upstream API failures, not model-level refusals. Despite this, Claude achieved full exploitation in 61 of 100 runs; Gemini 2.5 Flash-Lite in 85; GPT-4o-mini in 56 while deploying 98 unique attack strategies; qwen2.5-coder:14b in 25. Failure modes are model-distinctive: Claude through API truncation (39 runs), qwen through premature completion (52), GPT-4o-mini through iteration-budget exhaustion (23). Cross-service credential reuse appeared only in configurations retaining the most conversation history (qwen 57%, GPT-4o-mini 49%, cloud models 0% on 5-exchange windows). Cross-model exploitation rate differences are statistically significant (p < 0.001) with large effect sizes; qwen vs. Gemini SQL injection rates differ at Cohen's h = 1.12. First-exploit timing fell within a 15-30 second wall-clock range. To our knowledge, this is the first study to measure autonomous LLM attack behavior at N=100 per model across a multi-service target.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多段階のサイバー攻撃を自律的に行うことができるが、繰り返し試行錯誤する攻撃行動の一貫性はいまだ研究されていない。
400個の自律貫入試験(4つのモデル、100個ずつ)を、OWASP Juice Shopをホストする同一のハニーポットに対して実施し、プロンプト、オーケストレータ、ターゲット定数を保持する2つの脆弱なサービスに対して実施する。
いかなるモデルも、オーケストレータのワンショットの承認が繰り返し0-1で再発行されるのを乗り越えたコンテンツ拒絶を発生させなかった。
Claude Sonnet 4のAPIコールは、アップストリームのサービス障害に遭遇した - 1,135コールのうち91が、ドキュメント化されたArhropicキャパシティイベント中にHTTP 529オーバーロード_errorを返却し、100クロードランの39を停止した。
完全なログ監査では、モデルレベルの拒絶ではなく、上流のAPI障害である。
それにもかかわらず、Claudeは100ラン中61ラン、gemini 2.5 Flash-Lite 85ラン、GPT-4o-mini 56ラン、98独自の攻撃戦略、qwen 2.5-coder:14bランでフルエクスプロイトを達成した。
APIトランケーション(39実行),qwen through premature completion(52), GPT-4o-mini through iteration-budget exhaustion(23)。
クロスサービスのクレデンシャルの再利用は、最も会話履歴を保持する構成にのみ現れる(57%、GPT-4o-mini 49%、クラウドモデルは5つの交換ウィンドウで0%)。
クロスモデル利用率の差は統計的に有意であり(p < 0.001)、クウェンとジェミニのSQL注入率の差はコーエンのh = 1.12で異なる。
第1爆発のタイミングは15~30秒のウォールタイムの範囲内に落ちました。
我々の知る限り、マルチサービス対象のモデル毎の自律LSM攻撃挙動をN=100で測定する最初の研究である。
関連論文リスト
- Overeager Coding Agents: Measuring Out-of-Scope Actions on Benign Tasks [40.270213696031625]
OverEager-Genは、良質なタスクの振る舞いをオーバーイーガーするベンチマークである。
クロード・コードでは、同意宣言を削除するだけで、オーバーイーガー率は0.0%から17.1%に上昇する。
オーバーイーガー・ジェン(OverEager-Gen)は、入場前に各シナリオの識別力を認定する。
論文 参考訳(メタデータ) (2026-05-18T16:00:41Z) - The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort [51.56484100374058]
Spracklenらは、コード生成された大きな言語モデルは、PyPIやnpmに存在しないパッケージ名を幻覚させることを示した。
199,845対のPythonとJavaScriptプロンプトの幻覚率を測定し、PyPIとnpmマスターリストに対して検証した。
127個のパッケージ名(PyPIは109個,npmは18個)を5つの評価モデルで同一に作成する。
論文 参考訳(メタデータ) (2026-05-16T16:08:52Z) - Oracle Poisoning: Corrupting Knowledge Graphs to Weaponise AI Agent Reasoning [0.9236074230806578]
Oracle Poisoningは、相手が構造化知識グラフを破損させる攻撃クラスである。
プロンプトインジェクションとは異なり、Oracle Poisoningはデータエージェントを操作します。
プロダクション4200万ノードのコード知識グラフに対する6つの攻撃シナリオを実演する。
論文 参考訳(メタデータ) (2026-05-10T23:55:13Z) - Position: AI Security Policy Should Target Systems, Not Models [2.741152471987327]
本稿では,複数の軽量LCMエージェントが共有メモリを介して協調する,オープンソースの逆テストフレームワークを提案する。
我々の結果は、フロンティアモデルの安全性回避とソフトウェア脆弱性発見の両方が、効果的にゼロコストで達成可能であることを実証している。
論文 参考訳(メタデータ) (2026-05-10T12:27:14Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain [6.142057368768942]
大規模言語モデル(LLM)エージェントは、ツール呼び出し要求のディスパッチにサードパーティのAPIルータに依存している。
本研究は,この攻撃面に関する最初の系統的研究である。
論文 参考訳(メタデータ) (2026-04-09T16:06:41Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。