論文の概要: Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data
- arxiv url: http://arxiv.org/abs/2505.09974v1
- Date: Thu, 15 May 2025 05:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.194655
- Title: Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data
- Title(参考訳): Pseudo-Malicious Cyber Security Dataを用いたLLMの安全性リスク解析
- Authors: Adel ElZemity, Budi Arief, Shujun Li,
- Abstract要約: 本稿では,サイバーセキュリティアプリケーションのための細調整された大規模言語モデル(LLM)の安全性リスクの体系的評価を行う。
評価の結果, 微調整により全試験LCMの安全性が低下することがわかった。
本稿では,明示的な安全対策と倫理的配慮を取り入れた,命令応答対を慎重にリワードする安全アライメント手法を提案し,評価する。
- 参考スコア(独自算出の注目度): 2.2530496464901106
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The integration of large language models (LLMs) into cyber security applications presents significant opportunities, such as enhancing threat analysis and malware detection, but can also introduce critical risks and safety concerns, including personal data leakage and automated generation of new malware. We present a systematic evaluation of safety risks in fine-tuned LLMs for cyber security applications. Using the OWASP Top 10 for LLM Applications framework, we assessed seven open-source LLMs: Phi 3 Mini 3.8B, Mistral 7B, Qwen 2.5 7B, Llama 3 8B, Llama 3.1 8B, Gemma 2 9B, and Llama 2 70B. Our evaluation shows that fine-tuning reduces safety resilience across all tested LLMs (e.g., the safety score of Llama 3.1 8B against prompt injection drops from 0.95 to 0.15). We propose and evaluate a safety alignment approach that carefully rewords instruction-response pairs to include explicit safety precautions and ethical considerations. This approach demonstrates that it is possible to maintain or even improve model safety while preserving technical utility, offering a practical path forward for developing safer fine-tuning methodologies. This work offers a systematic evaluation for safety risks in LLMs, enabling safer adoption of generative AI in sensitive domains, and contributing towards the development of secure, trustworthy, and ethically aligned LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)のサイバーセキュリティアプリケーションへの統合は、脅威分析やマルウェア検出の強化などの重要な機会を提供するが、個人データ漏洩や新しいマルウェアの自動生成など、重大なリスクや安全性の懸念も引き起こす可能性がある。
サイバーセキュリティアプリケーションのための微調整LDMにおける安全性リスクのシステマティック評価を行う。
OWASP Top 10 for LLM Applicationsフレームワークを使用して、Phi 3 Mini 3.8B、Mistral 7B、Qwen 2.5 7B、Llama 3 8B、Llama 3.1 8B、Gemma 2 9B、Llama 2 70Bの7つのオープンソースLLMを評価した。
評価の結果, 微調整により全試験LCM(Llama 3.1 8Bの安全性スコア0.95から0.15)の安全性が低下することがわかった。
本稿では,明示的な安全対策と倫理的配慮を取り入れた,命令応答対を慎重にリワードする安全アライメント手法を提案し,評価する。
このアプローチは、技術的実用性を維持しながらモデルの安全性を維持したり、改善したりすることが可能であることを示し、より安全な微調整方法論を開発するための実践的な道筋を提供する。
この研究は、LLMの安全性リスクを体系的に評価し、機密ドメインにおける生成AIのより安全な採用を可能にし、安全で信頼性があり倫理的に整合したLLMの開発に貢献する。
関連論文リスト
- CyberLLMInstruct: A New Dataset for Analysing Safety of Fine-Tuned LLMs Using Cyber Security Data [2.2530496464901106]
大規模言語モデルのサイバーセキュリティアプリケーションへの統合は、大きなチャンスをもたらす。
CyberLLMInstructは、サイバーセキュリティタスクにまたがる54,928の命令応答ペアのデータセットである。
微調整モデルは、CyberMetricベンチマークで最大92.50%の精度を達成することができる。
論文 参考訳(メタデータ) (2025-03-12T12:29:27Z) - Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。
S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。