論文の概要: Security Assessment and Mitigation Strategies for Large Language Models: A Comprehensive Defensive Framework
- arxiv url: http://arxiv.org/abs/2603.17123v1
- Date: Tue, 17 Mar 2026 20:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.39
- Title: Security Assessment and Mitigation Strategies for Large Language Models: A Comprehensive Defensive Framework
- Title(参考訳): 大規模言語モデルのセキュリティ評価と緩和方略:包括的防御フレームワーク
- Authors: Taiwo Onitiju, Iman Vakilinia,
- Abstract要約: 大規模言語モデルは、医療から金融への重要なインフラをますます力づけていますが、敵の操作に対する脆弱性は、システムの完全性とユーザの安全を脅かしています。
本研究は、標準化された脆弱性評価フレームワークを確立し、特定された脅威から保護するための多層防御システムを開発することで、このギャップに対処する。
- 参考スコア(独自算出の注目度): 0.6015898117103067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models increasingly power critical infrastructure from healthcare to finance, yet their vulnerability to adversarial manipulation threatens system integrity and user safety. Despite growing deployment, no comprehensive comparative security assessment exists across major LLM architectures, leaving organizations unable to quantify risk or select appropriately secure LLMs for sensitive applications. This research addresses this gap by establishing a standardized vulnerability assessment framework and developing a multi-layered defensive system to protect against identified threats. We systematically evaluate five widely-deployed LLM families GPT-4, GPT-3.5 Turbo, Claude-3 Haiku, LLaMA-2-70B, and Gemini-2.5-pro against 10,000 adversarial prompts spanning six attack categories. Our assessment reveals critical security disparities, with vulnerability rates ranging from 11.9\% to 29.8\%, demonstrating that LLM capability does not correlate with security robustness. To mitigate these risks, we develop a production-ready defensive framework achieving 83\% average detection accuracy with only 5\% false positives. These results demonstrate that systematic security assessment combined with external defensive measures provides a viable path toward safer LLM deployment in production environments.
- Abstract(参考訳): 大規模言語モデルは、医療から金融への重要なインフラをますます力づけていますが、敵の操作に対する脆弱性は、システムの完全性とユーザの安全を脅かしています。
デプロイメントの増加にもかかわらず、主要なLLMアーキテクチャ全体にわたって包括的な比較セキュリティアセスメントが存在しておらず、リスクの定量化や、機密性の高いアプリケーションに対して適切なセキュアなLLMを選択することができない。
本研究は、標準化された脆弱性評価フレームワークを確立し、特定された脅威から保護するための多層防御システムを開発することで、このギャップに対処する。
GPT-4, GPT-3.5 Turbo, Claude-3 Haiku, LLaMA-2-70B, Gemini-2.5-proの5つのLLMファミリーを,6つの攻撃カテゴリにまたがる1万の敵のプロンプトに対して系統的に評価した。
我々の評価では、脆弱性率は 11.9 % から 29.8 % であり、LLM の能力がセキュリティの堅牢性と相関しないことを示す。
これらのリスクを軽減するため,生産可能な防御フレームワークを開発し,平均検出精度は83%,偽陽性は55%であった。
これらの結果から,外部防御対策と併用したシステムセキュリティアセスメントが,運用環境におけるLCMの安全性向上に有効であることが示唆された。
関連論文リスト
- What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - SafeLawBench: Towards Safe Alignment of Large Language Models [18.035407356604832]
大きな言語モデル(LLM)の安全性を評価するための明確な基準が欠如している。
SafeLawBenchは、法的基準に基づいて、安全リスクを3つのレベルに分類する。
24,860のマルチチョイス質問と1,106のオープンドメイン質問回答(QA)タスクで構成されている。
論文 参考訳(メタデータ) (2025-06-07T03:09:59Z) - Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data [2.549390156222399]
大規模言語モデル(LLM)は、サイバーセキュリティを含む多くのアプリケーションドメインで使用されている。
近年の研究では、疑似悪意のあるサイバーセキュリティデータを用いた微調整LDMが安全性を著しく損なうことが示されている。
本稿では,異なる評価枠組みを用いて,これらの安全性リスクの包括的検証と拡張を行う。
論文 参考訳(メタデータ) (2025-05-15T05:22:53Z) - Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation [10.987263424166477]
大型言語モデル(LLM)の代替として、小型言語モデル(SLM)が登場した。
本稿では,SLMの脆弱性をジェイルブレイク攻撃に対して大規模な実証的研究を行った。
モデルのサイズ、モデルアーキテクチャ、トレーニングデータセット、トレーニングテクニックの4つの重要な要素を特定します。
論文 参考訳(メタデータ) (2025-03-09T08:47:16Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。