論文の概要: Which Defense Closes Which Threat? Attributing OWASP-LLM-Top-10 Coverage and Its Brittleness Under Paraphrasing
- arxiv url: http://arxiv.org/abs/2606.02822v1
- Date: Mon, 01 Jun 2026 19:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.568454
- Title: Which Defense Closes Which Threat? Attributing OWASP-LLM-Top-10 Coverage and Its Brittleness Under Paraphrasing
- Title(参考訳): OWASP-LLM-Top-10のカバーとパラフレーズ下での脆さ
- Authors: Alexandre Cristovão Maiorano,
- Abstract要約: プロダクションLLMアプリケーションは、いくつかの防衛ファミリを積み重ねる -- 拒絶フレーズフィルタ、トークンバッジコントロール、モデル許容度リスト、レート制限、ツール登録認証 -- が、BASベンチマークでは、単一の集計カバレッジ番号を報告している。
21エージェントベースラインスキャナに4つのLLM-Top-10対応エージェントを追加し、4つの合成LDMエンドポイントの格子をターゲットとした。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Production LLM applications stack several defense families -- refusal-phrase filters, token-budget controls, model allowlists, rate limits, tool-registry authentication -- yet existing breach-and-attack-simulation (BAS) benchmarks report a single aggregate coverage number, hiding which family closes which threat. We measure attribution. We add four OWASP-LLM-Top-10-aware agents to a 21-agent baseline scanner and target a lattice of four synthetic LLM endpoints: $L_0$ (no defenses), $L_1$ (refusal-only), $L_2$ (budget-only), and $L_3$ (full stack). $L_1$ and $L_2$ are sibling single-axis ablations, not subsets of each other; $L_3$ is their union plus tool-registry authentication and credential scrubbing. Across $N=10$ replications, the per-OWASP finding count is clean: refusal alone removes all LLM01 (jailbreak) and LLM07 (system-prompt leakage) findings; budget alone removes all LLM02 (sensitive-info disclosure) and LLM10 (unbounded consumption) findings by terminating multi-step sequences; LLM06 (excessive agency) requires the full stack. We probe brittleness under paraphrasing: with 300 Gemini-generated paraphrases ($K=5$ over a 60-template brittleness corpus), $L_1$ refusal block rate falls 15 pp on LLM01 and 25 pp on LLM07. A fifth target, $L_4$-real, swaps the stub backend for Gemini-2.5-flash behind the same $L_3$ regex and matches $L_1$ exactly, indicating no measurable alignment contribution beyond the regex (not a general claim about alignment). Budget controls show no drop (0 pp once the rate-limit floor is factored out). A refusal whitelist that clears a static benchmark can be defeated by an LLM-driven paraphraser without changing attack intent; a budget control resists the same mutation.
- Abstract(参考訳): プロダクションLLMアプリケーションは、いくつかの防衛ファミリを積み重ねる -- 拒絶フレーズフィルタ、トークン予算制御、モデル許容度、レート制限、ツール登録認証 -- が、既存の違反と攻撃のシミュレーション(BAS)ベンチマークでは、単一の集合カバレッジ番号を報告し、家族が脅威を閉じていることを隠蔽している。
私たちは帰属を測る。
OWASP-LLM-Top-10対応エージェントを21エージェントベースラインスキャナに4つ追加し、4つの合成LCMエンドポイントの格子をターゲットとする:$L_0$(防御なし)、$L_1$(拒絶専用)、$L_2$(予算専用)、$L_3$(フルスタック)。
L_1$と$L_2$は、互いにサブセットではなく、単一の軸のアブリケーションの兄弟である。
拒否のみ LLM01 (jailbreak) と LLM07 (system-prompt leakage) の発見を、予算だけで LLM02 (sensitive-info disclosure) と LLM10 (unbounded consumption) のすべての発見を、マルチステップシーケンスを終了することで削除する。
また, 300 Gemini 生成パラフレーズ (K=5$ over a 60-template brittleness corpus), $L_1$ refusal block rate fall 15 pp on LLM01 and 25 pp on LLM07。
5番目のターゲットである$L_4$-realは、同じ$L_3$ regexの後方にあるgemini-2.5-flashのスタブバックエンドを置き換え、正確には$L_1$と一致する。
予算管理は低下を示さない(レート制限フロアが外されると0pp)。
静的なベンチマークをクリアする拒絶されたホワイトリストは、攻撃意図を変えることなくLDM駆動のパラフレーズによって倒すことができる。
関連論文リスト
- The Security Budget of Code LLMs: An Information-Theoretic Capacity-Security Bound [0.0]
本稿では,機能容量$Cap=rmI(c*;c_)$と摂動保持$$Sec=rmI(c_;tilde c_)$のコードLLMに対する情報理論トレードオフについて検討する。
for $pto c_$ with perturbed prompt $tilde p$, we prove $Cap+Secle rmH(c*)+rmI(p;tilde p)$。
論文 参考訳(メタデータ) (2026-06-02T08:22:14Z) - LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis [7.571129923187892]
CIの障害ログは大きい(中央5k行、このコーパスで最大200k)し、ノイズがあります。
デバッグしようとするコーディングエージェントは、上流ツールに依存して、ログを管理可能なコンテキストに還元する。
11のコンテキスト推論ツールを比較するベンチマークであるLogDx-CIを紹介します。
論文 参考訳(メタデータ) (2026-05-26T06:34:47Z) - Ratchet: A Minimal Hygiene Recipe for Self-Evolving LLM Agents [9.989306175511238]
textbfRatchetは、凍結したLLMが自身の自然言語スキルを書き、検索し、キュレートし、リタイアする単一エージェントループである。
Ratchetは4つの候補衛生メカニズムを統合している: 結果駆動型退職、有界アクティブキャップ、メタスキルオーサリングガイダンス、パターン正準化。
論文 参考訳(メタデータ) (2026-05-21T08:20:38Z) - Large Language Models as Optimization Controllers: Adaptive Continuation for SIMP Topology Optimization [4.365822392824561]
本稿では,SIMP最適化のためのオンラインコントローラとして,大規模言語モデルが機能するフレームワークを提案する。
ハードグレーネスゲートは未熟なバイナライゼーションを防止し、メタ最適化ループは第2パスを使用してエージェントの呼び出し周波数を調整する。
エージェントはすべてのベンチマークの最終的なコンプライアンスを達成する:$5.7%$から$-1%、すべてのソリューションが完全にバイナリである。
論文 参考訳(メタデータ) (2026-03-26T07:14:31Z) - Bits Leaked per Query: Information-Theoretic Bounds on Adversarial Attacks against LLMs [47.12608115550359]
大きな言語モデル(LLM)の安全性を脅かす悪意のあるユーザによる攻撃は、命令が発行された時点で不明なターゲットプロパティ$T$を推論しようとする試みと見なすことができる。
エラー$varepsilon$を達成するには、少なくとも$log (1/varepsilon)/I(Z;T)$クエリが必要で、逆リークレートで線形にスケーリングし、所望の精度で対数的にのみ実行する必要がある。
論文 参考訳(メタデータ) (2025-10-19T20:51:24Z) - Reasoning Robustness of LLMs to Adversarial Typographical Errors [49.99118660264703]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトを使用した推論において、印象的な機能を示している。
本研究では,LLMのタイポグラフィ的誤りに対するロバスト性について検討する。
我々は,クエリに重要な単語の型を反復的にサンプリングし,攻撃に成功しそうな編集を選択する,Adversarial Typo Attack(texttATA$)アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-11-08T05:54:05Z) - Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。
本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:39:31Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。