論文の概要: Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data
- arxiv url: http://arxiv.org/abs/2505.09974v2
- Date: Wed, 17 Sep 2025 13:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 14:28:51.706945
- Title: Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data
- Title(参考訳): Pseudo-Malicious Cyber Security Dataを用いたLLMの安全性リスク解析
- Authors: Adel ElZemity, Budi Arief, Shujun Li,
- Abstract要約: 大規模言語モデル(LLM)は、サイバーセキュリティを含む多くのアプリケーションドメインで使用されている。
近年の研究では、疑似悪意のあるサイバーセキュリティデータを用いた微調整LDMが安全性を著しく損なうことが示されている。
本稿では,異なる評価枠組みを用いて,これらの安全性リスクの包括的検証と拡張を行う。
- 参考スコア(独自算出の注目度): 2.549390156222399
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have been used in many application domains, including cyber security. The application of LLMs in the cyber security domain presents significant opportunities, such as for enhancing threat analysis and malware detection, but it can also introduce critical risks and safety concerns, including potential personal data leakage and automated generation of new malware. Building on recent findings that fine-tuning LLMs with pseudo-malicious cyber security data significantly compromises their safety, this paper presents a comprehensive validation and extension of these safety risks using a different evaluation framework. We employ the garak red teaming framework with the OWASP Top 10 for LLM Applications to assess four open-source LLMs: Mistral 7B, Llama 3 8B, Gemma 2 9B, and DeepSeek R1 8B. Our evaluation confirms and extends previous findings, showing that fine-tuning reduces safety resilience across all tested LLMs (e.g., the failure rate of Mistral 7B against prompt injection increases from 9.1% to 68.7%). We further propose and evaluate a novel safety alignment approach that carefully rewords instruction-response pairs to include explicit safety precautions and ethical considerations. This work validates previous safety concerns through independent evaluation and introduces new methods for mitigating these risks, contributing towards the development of secure, trustworthy, and ethically aligned LLMs. This approach demonstrates that it is possible to maintain or even improve model safety while preserving technical utility, offering a practical path towards developing safer fine-tuning methodologies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、サイバーセキュリティを含む多くのアプリケーションドメインで使用されている。
サイバーセキュリティ領域におけるLSMの適用は、脅威分析やマルウェア検出の強化など、大きな機会を提供するが、個人データ漏洩やマルウェアの自動生成など、重大なリスクや安全性の懸念も持ち込むことができる。
疑似重複サイバーセキュリティデータを用いた微調整LDMが安全性を著しく損なうという最近の知見に基づいて,異なる評価枠組みを用いて,これらの安全性リスクの包括的検証と拡張を行う。
我々は、OWASP Top 10 for LLM Applicationsを用いて、Mistral 7B、Llama 3 8B、Gemma 2 9B、DeepSeek R1 8Bの4つのオープンソースLLMを評価する。
以上の結果から, 微調整により全試験LSMの安全性が低下すること, 即発注射に対するMistral 7Bの失敗率は9.1%から68.7%に増加したことが確認された。
さらに、明示的な安全対策と倫理的配慮を含む命令-応答ペアを慎重に再定義する新しい安全アライメント手法を提案し、評価する。
この研究は、独立評価を通じて過去の安全上の懸念を検証し、これらのリスクを軽減し、安全で信頼性があり倫理的に整合したLSMの開発に寄与する新しい方法を導入する。
このアプローチは、技術的実用性を維持しながらモデルの安全性を維持したり、改善したりすることが可能であることを示し、より安全な微調整手法を開発するための実践的な道筋を提供する。
関連論文リスト
- SafeLawBench: Towards Safe Alignment of Large Language Models [18.035407356604832]
大きな言語モデル(LLM)の安全性を評価するための明確な基準が欠如している。
SafeLawBenchは、法的基準に基づいて、安全リスクを3つのレベルに分類する。
24,860のマルチチョイス質問と1,106のオープンドメイン質問回答(QA)タスクで構成されている。
論文 参考訳(メタデータ) (2025-06-07T03:09:59Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - The Hidden Risks of LLM-Generated Web Application Code: A Security-Centric Evaluation of Code Generation Capabilities in Large Language Models [0.769672852567215]
本稿では,複数のモデルにまたがるLLM生成コードのセキュリティコンプライアンスを評価するために,予め定義されたセキュリティパラメータを用いる。
この分析は、認証機構、セッション管理、入力バリデーション、HTTPセキュリティヘッダに重大な脆弱性を明らかにしている。
我々の発見は、LLM生成コードのセキュアなソフトウェアデプロイメントやレビューのために、人間の専門知識が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-04-29T10:23:11Z) - CyberLLMInstruct: A New Dataset for Analysing Safety of Fine-Tuned LLMs Using Cyber Security Data [2.2530496464901106]
大規模言語モデルのサイバーセキュリティアプリケーションへの統合は、大きなチャンスをもたらす。
CyberLLMInstructは、サイバーセキュリティタスクにまたがる54,928の命令応答ペアのデータセットである。
微調整モデルは、CyberMetricベンチマークで最大92.50%の精度を達成することができる。
論文 参考訳(メタデータ) (2025-03-12T12:29:27Z) - Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。
S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。