論文の概要: SecureBreak -- A dataset towards safe and secure models
- arxiv url: http://arxiv.org/abs/2603.21975v1
- Date: Mon, 23 Mar 2026 13:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.690985
- Title: SecureBreak -- A dataset towards safe and secure models
- Title(参考訳): SecureBreak -- 安全でセキュアなモデルに向けたデータセット
- Authors: Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera,
- Abstract要約: 本稿では、有害なLCM出力を検出するAI駆動型ソリューションの開発を支援するために設計された安全指向データセットSecureBreakを紹介する。
このデータセットは、安全を確保するためにラベルを保守的に割り当てる、注意深い手動アノテーションのため、非常に信頼性が高い。
トレーニング済みLLM試験ではSecureBreakを微調整した結果が改善された。
- 参考スコア(独自算出の注目度): 3.797867929356259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are becoming pervasive core components in many real-world applications. As a consequence, security alignment represents a critical requirement for their safe deployment. Although previous related works focused primarily on model architectures and alignment methodologies, these approaches alone cannot ensure the complete elimination of harmful generations. This concern is reinforced by the growing body of scientific literature showing that attacks, such as jailbreaking and prompt injection, can bypass existing security alignment mechanisms. As a consequence, additional security strategies are needed both to provide qualitative feedback on the robustness of the obtained security alignment at the training stage, and to create an ``ultimate'' defense layer to block unsafe outputs possibly produced by deployed models. To provide a contribution in this scenario, this paper introduces SecureBreak, a safety-oriented dataset designed to support the development of AI-driven solutions for detecting harmful LLM outputs caused by residual weaknesses in security alignment. The dataset is highly reliable due to careful manual annotation, where labels are assigned conservatively to ensure safety. It performs well in detecting unsafe content across multiple risk categories. Tests with pre-trained LLMs show improved results after fine-tuning on SecureBreak. Overall, the dataset is useful both for post-generation safety filtering and for guiding further model alignment and security improvements.
- Abstract(参考訳): 大規模言語モデルは、多くの現実世界のアプリケーションにおいて、広く普及しているコアコンポーネントになりつつある。
その結果、セキュリティアライメントは、安全なデプロイメントにとって重要な要件である。
これまでの関連する研究は主にモデルアーキテクチャとアライメント方法論に焦点を当てていたが、これらのアプローチだけでは有害な世代を完全に排除することはできない。
この懸念は、ジェイルブレイクやプロンプトインジェクションのような攻撃が、既存のセキュリティアライメントメカニズムをバイパスできることを示す科学文献の増大によって強化されている。
結果として、トレーニング段階で得られたセキュリティアライメントの堅牢性に関する質的なフィードバックを提供することと、デプロイされたモデルによって生成される可能性のある安全でない出力をブロックする‘ultimate’防衛層を作成するために、さらなるセキュリティ戦略が必要である。
このシナリオへのコントリビューションとして、セキュリティアライメントの弱点による有害なLCM出力を検出するAI駆動型ソリューションの開発を支援するために設計された安全指向データセットであるSecureBreakを紹介する。
このデータセットは、安全を確保するためにラベルを保守的に割り当てる、注意深い手動アノテーションのために、非常に信頼性が高い。
それは、複数のリスクカテゴリにわたる安全でないコンテンツを検出するのにうまく機能する。
トレーニング済みLLM試験ではSecureBreakを微調整した結果が改善された。
全体として、データセットは、後の安全フィルタリングと、さらなるモデルアライメントとセキュリティ改善の導出の両方に有用である。
関連論文リスト
- UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
整列 LLM の内部パラメータは、微調整攻撃を受けた場合のセキュリティ劣化に対して脆弱である。
我々の研究は、パラメータレベルでのLLMの整列化におけるセキュリティのメカニズムを明らかにし、モデルの中央に小さな連続した層を識別する。
そこで本稿では, 安全部分調整(SPPFT)方式を提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。