論文の概要: Benchmarking LLAMA Model Security Against OWASP Top 10 For LLM Applications
- arxiv url: http://arxiv.org/abs/2601.19970v1
- Date: Tue, 27 Jan 2026 18:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.622304
- Title: Benchmarking LLAMA Model Security Against OWASP Top 10 For LLM Applications
- Title(参考訳): LLMアプリケーションのOWASPトップ10に対するLLAMAモデルセキュリティのベンチマーク
- Authors: Nourin Shahin, Izzat Alsmadi,
- Abstract要約: 本研究は,LLMアプリケーションフレームワークのトップ10に対して,さまざまなLlamaモデルの変種をベンチマークする。
5つの標準Llamaモデルと5つのLlama Guardを10の脆弱性カテゴリをカバーする100の逆プロンプトでテストした。
コンパクトなLlama-Guard-3-1Bモデルは、最小レイテンシで76%の最高検出率を達成した。
モデルサイズとセキュリティの有効性の逆関係を観察し、より小型の特殊なモデルがセキュリティタスクにおいてより大きな汎用モデルよりも優れていることを示唆する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) move from research prototypes to enterprise systems, their security vulnerabilities pose serious risks to data privacy and system integrity. This study benchmarks various Llama model variants against the OWASP Top 10 for LLM Applications framework, evaluating threat detection accuracy, response safety, and computational overhead. Using the FABRIC testbed with NVIDIA A30 GPUs, we tested five standard Llama models and five Llama Guard variants on 100 adversarial prompts covering ten vulnerability categories. Our results reveal significant differences in security performance: the compact Llama-Guard-3-1B model achieved the highest detection rate of 76% with minimal latency (0.165s per test), whereas base models such as Llama-3.1-8B failed to detect threats (0% accuracy) despite longer inference times (0.754s). We observe an inverse relationship between model size and security effectiveness, suggesting that smaller, specialized models often outperform larger general-purpose ones in security tasks. Additionally, we provide an open-source benchmark dataset including adversarial prompts, threat labels, and attack metadata to support reproducible research in AI security, [1].
- Abstract(参考訳): 大規模言語モデル(LLM)が研究プロトタイプからエンタープライズシステムに移行するにつれ、セキュリティ上の脆弱性はデータのプライバシとシステム整合性に重大なリスクをもたらす。
本研究では, 脅威検出精度, 応答安全性, 計算オーバーヘッドを評価し, OWASP Top 10 for LLM Applications フレームワークに対して様々な Llama モデルの変種をベンチマークする。
NVIDIA A30 GPUを使用したFABRICテストベッドを使用して、10の脆弱性カテゴリをカバーする100の敵プロンプト上で、5つの標準Llamaモデルと5つのLlama Guard変異体をテストした。
小型のLlama-Guard-3-1Bモデルは、最小レイテンシ(0.165秒/テスト)で76%と高い検出率を達成したが、Llama-3.1-8Bのようなベースモデルは、より長い推論時間(0.754秒)にもかかわらず脅威(0%の精度)を検出できなかった。
モデルサイズとセキュリティの有効性の逆関係を観察し、より小型の特殊なモデルがセキュリティタスクにおいてより大きな汎用モデルよりも優れていることを示唆する。
さらに、AIセキュリティにおける再現可能な研究をサポートするために、敵のプロンプト、脅威ラベル、アタックメタデータを含むオープンソースのベンチマークデータセットを提供しています。
関連論文リスト
- Securing AI Agents Against Prompt Injection Attacks [0.0]
本稿では,RAG対応AIエージェントのインジェクションリスク評価のためのベンチマークを提案する。
本フレームワークは,攻撃速度を73.2%から8.7%に削減し,94.3%のベースラインタスク性能を維持した。
論文 参考訳(メタデータ) (2025-11-19T10:00:54Z) - Death by a Thousand Prompts: Open Model Vulnerability Analysis [0.06213771671016099]
オープンウェイトモデルは、研究者や開発者に対して、さまざまなダウンストリームアプリケーションの基礎を提供します。
8つのオープンウェイトな大規模言語モデル(LLM)の安全性とセキュリティの姿勢をテストし、その後の微調整とデプロイメントに影響を与える可能性のある脆弱性を特定しました。
以上の結果から, マルチターン攻撃による成功率は25.86%から92.78%であった。
論文 参考訳(メタデータ) (2025-11-05T07:22:24Z) - Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。
本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。
私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文 参考訳(メタデータ) (2025-07-08T18:24:28Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - CyberLLMInstruct: A Pseudo-malicious Dataset Revealing Safety-performance Trade-offs in Cyber Security LLM Fine-tuning [2.549390156222399]
大規模言語モデルのサイバーセキュリティアプリケーションへの統合は、機会と重要な安全リスクの両方を示します。
我々はサイバーセキュリティタスクにまたがる54,928の擬似重複命令応答ペアのデータセットであるCyberLLMInstructを紹介した。
論文 参考訳(メタデータ) (2025-03-12T12:29:27Z) - SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models [63.63254955809224]
本稿では,難しい例と簡単な例を区別するバイナリルータを提案する。
提案手法は、ルータが考慮するデータに対して、より大きな安全ガードモデルを選択的に適用し、精度を維持しながら効率を向上する。
複数のベンチマークデータセットによる実験結果から,適応モデルの選択により,計算コストと安全性性能のトレードオフが著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:51:17Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。