論文の概要: Quantifying Return on Security Controls in LLM Systems
- arxiv url: http://arxiv.org/abs/2512.15081v1
- Date: Wed, 17 Dec 2025 04:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.856939
- Title: Quantifying Return on Security Controls in LLM Systems
- Title(参考訳): LLMシステムにおけるセキュリティ制御のリターンの定量化
- Authors: Richard Helder Moulton, Austin O'Brien, John D. Hastings,
- Abstract要約: 本稿では、残留リスクを定量化するための意思決定指向フレームワークを提案する。
敵のプローブの結果を金融リスク推定と戻り制御の指標に変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) are increasingly used in security-critical workflows, practitioners lack quantitative guidance on which safeguards are worth deploying. This paper introduces a decision-oriented framework and reproducible methodology that together quantify residual risk, convert adversarial probe outcomes into financial risk estimates and return-on-control (RoC) metrics, and enable monetary comparison of layered defenses for LLM-based systems. A retrieval-augmented generation (RAG) service is instantiated using the DeepSeek-R1 model over a corpus containing synthetic personally identifiable information (PII), and subjected to automated attacks with Garak across five vulnerability classes: PII leakage, latent context injection, prompt injection, adversarial attack generation, and divergence. For each (vulnerability, control) pair, attack success probabilities are estimated via Laplace's Rule of Succession and combined with loss triangle distributions, calibrated from public breach-cost data, in 10,000-run Monte Carlo simulations to produce loss exceedance curves and expected losses. Three widely used mitigations, attribute-based access control (ABAC); named entity recognition (NER) redaction using Microsoft Presidio; and NeMo Guardrails, are then compared to a baseline RAG configuration. The baseline system exhibits very high attack success rates (>= 0.98 for PII, latent injection, and prompt injection), yielding a total simulated expected loss of $313k per attack scenario. ABAC collapses success probabilities for PII and prompt-related attacks to near zero and reduces the total expected loss by ~94%, achieving an RoC of 9.83. NER redaction likewise eliminates PII leakage and attains an RoC of 5.97, while NeMo Guardrails provides only marginal benefit (RoC of 0.05).
- Abstract(参考訳): 大きな言語モデル(LLM)は、セキュリティクリティカルなワークフローでますます使用されているが、実践者は、どのセーフガードにデプロイする価値があるかについての定量的ガイダンスを欠いている。
本稿では,残余リスクを定量化し,敵対的プローブの結果を金融リスク推定とリターン・オン・コントロール(RoC)メトリクスに変換し,LCMベースのシステムに対する層状防御の金銭的比較を可能にする,意思決定指向の枠組みと再現可能な手法を提案する。
合成個人識別情報(PII)を含むコーパス上でDeepSeek-R1モデルを用いて検索強化生成(RAG)サービスをインスタンス化し、PIIリーク、潜伏コンテキストインジェクション、即時インジェクション、敵攻撃生成、発散の5つの脆弱性クラスにわたってガーラックによる自動攻撃を受ける。
それぞれの(脆弱性、制御)ペアについて、攻撃成功確率は、Laplace's Rule of Successionを通じて推定され、パブリックな侵害コストデータからキャリブレーションされた損失三角形分布と組み合わせて、1万ランのモンテカルロシミュレーションで損失超過曲線と期待損失を生成する。
広く使われている3つの緩和、属性ベースのアクセス制御(ABAC)、Microsoft Presidioを使った名前付きエンティティ認識(NER)のリアクション、NeMo GuardrailsはベースラインのRAG構成と比較される。
ベースラインシステムは、非常に高い攻撃成功率(PII、潜入注射、即時噴射)を示し、攻撃シナリオ当たりの予測損失は313kである。
ABACはPIIの成功確率を崩壊させ、即時攻撃をほぼゼロにし、総損失を約94%減らし、RoCは9.83に達する。
NERのリアクションも同様にPIIの漏れを排除し、RoCは5.97、NeMoガードレールは限界利得しか得られない(RoCは0.05)。
関連論文リスト
- On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral [59.14787085809595]
この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
論文 参考訳(メタデータ) (2025-12-03T19:41:15Z) - Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems [11.812488957698038]
大規模言語モデル(LLM)は私たちの日常生活の多くの側面を変え、Webベースのサービスとして広く採用されています。
検索・拡張生成(RAG)は,外部知識ソースに根ざした応答を生成することによって,将来性のある方向として登場した。
近年の研究では、誤情報注入による知識腐敗攻撃など、RAGの脆弱性が実証されている。
本稿では,知識汚職に対する資源効率のよい防御機構であるRAGDefenderを紹介する。
論文 参考訳(メタデータ) (2025-11-03T06:39:58Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Risk-Calibrated Bayesian Streaming Intrusion Detection with SRE-Aligned Decisions [0.0]
本稿では,ベイジアンオンライン変更点検出とサイト信頼性工学(SRE)の誤差予算に整合した決定しきい値とを結合したストリーミング侵入検出に対するリスク校正手法を提案する。
我々は、ハザードモデル、共役更新、およびイベントごとのO(1)実装について詳述する。
具体的なSREの例は、99.9%の可用性SLO(月43.2分毎のエラー予算)が、ミスインシデントが偽アラームよりも10倍高い場合、0.91に近い確率閾値を得ることを示している。
論文 参考訳(メタデータ) (2025-09-17T17:36:08Z) - A Biosecurity Agent for Lifecycle LLM Biosecurity Alignment [13.707244322057834]
本研究では,モデルライフサイクル全体で4つの調整モードで構成されるバイオセキュリティエージェントについて述べる。
データセットの衛生化(Mode 1)については、新型コロナウイルス関連記事のオープンリサーチデータセットであるCORD-19で評価を行う。
優先調整(Mode 2)では、LoRAアダプタを使用したDPOは拒絶や安全な完了を内部化し、エンドツーエンドの攻撃成功率(ASR)を59.7%から3.0%に下げる。
推論(Mode 3)では、L1-L3のランタイムガードレールは、期待されるセキュリティとユーザビリティのトレードオフを示している。
論文 参考訳(メタデータ) (2025-09-13T23:54:54Z) - Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks [0.0]
大規模言語モデル (LLM) は、機械生成テキストの品質を評価するための評価器 (LLM-as-a-Judge) としてますます採用されている。
本稿では,LPM-as-a-Judgeアーキテクチャの早期注入攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-19T16:51:12Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。