論文の概要: Unified Defense for Large Language Models against Jailbreak and Fine-Tuning Attacks in Education
- arxiv url: http://arxiv.org/abs/2511.14423v1
- Date: Tue, 18 Nov 2025 12:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.103214
- Title: Unified Defense for Large Language Models against Jailbreak and Fine-Tuning Attacks in Education
- Title(参考訳): 大規模言語モデルの教育における脱獄・微調整攻撃に対する統一的防御
- Authors: Xin Yi, Yue Li, Dongsheng Shi, Linlin Wang, Xiaoling Wang, Liang He,
- Abstract要約: 大規模言語モデル(LLM)は、ますます教育アプリケーションに統合されている。
LLMは、ジェイルブレイクや微調整攻撃に弱いため、安全アライメントを妥協し、有害な出力につながる可能性がある。
脱獄と微調整の両方を同時に緩和する教育用3段階シールドフレームワーク(TSSF)を提案する。
- 参考スコア(独自算出の注目度): 32.70143887942455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into educational applications. However, they remain vulnerable to jailbreak and fine-tuning attacks, which can compromise safety alignment and lead to harmful outputs. Existing studies mainly focus on general safety evaluations, with limited attention to the unique safety requirements of educational scenarios. To address this gap, we construct EduHarm, a benchmark containing safe-unsafe instruction pairs across five representative educational scenarios, enabling systematic safety evaluation of educational LLMs. Furthermore, we propose a three-stage shield framework (TSSF) for educational LLMs that simultaneously mitigates both jailbreak and fine-tuning attacks. First, safety-aware attention realignment redirects attention toward critical unsafe tokens, thereby restoring the harmfulness feature that discriminates between unsafe and safe inputs. Second, layer-wise safety judgment identifies harmfulness features by aggregating safety cues across multiple layers to detect unsafe instructions. Finally, defense-driven dual routing separates safe and unsafe queries, ensuring normal processing for benign inputs and guarded responses for harmful ones. Extensive experiments across eight jailbreak attack strategies demonstrate that TSSF effectively strengthens safety while preventing over-refusal of benign queries. Evaluations on three fine-tuning attack datasets further show that it consistently achieves robust defense against harmful queries while maintaining preserving utility gains from benign fine-tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます教育アプリケーションに統合されている。
しかし、それらは脱獄や微調整攻撃に弱いままであり、安全アライメントを損なう可能性があり、有害なアウトプットにつながる。
既存の研究は主に一般の安全評価に焦点を当てており、教育シナリオのユニークな安全要件に限定されている。
このギャップに対処するために、EduHarmという5つの代表的な教育シナリオにまたがる安全でない命令ペアを含むベンチマークを構築し、教育用LLMの系統的安全性評価を可能にする。
さらに, 脱獄攻撃と微調整攻撃を同時に軽減する教育用3段階シールドフレームワーク (TSSF) を提案する。
第一に、安全を意識した注意認識は、重要な安全でないトークンに注意を向け、安全でない入力と安全でない入力を区別する有害な特徴を回復させる。
第2に,複数層にまたがって安全手段を集約し,安全でない命令を検出することにより,有害性を判定する。
最後に、ディフェンス駆動のデュアルルーティングは、安全なクエリと安全でないクエリを分離し、良性入力の正常な処理と有害なクエリのガードされたレスポンスを保証する。
8つのジェイルブレイク攻撃戦略に対する大規模な実験により、TSSFは良心的クエリの過剰な拒否を防ぎ、安全性を効果的に強化することを示した。
3つの微調整攻撃データセットの評価は、良質な微調整による実用性の向上を維持しながら、有害なクエリに対する堅牢な防御を一貫して達成していることを示している。
関連論文リスト
- SafeLLM: Unlearning Harmful Outputs from Large Language Models against Jailbreak Attacks [29.963044242980345]
ジェイルブレイク攻撃は、大規模言語モデルの安全性に深刻な脅威をもたらす。
我々は,新しい非学習型防衛フレームワークであるSafeLLMを提案する。
SafeLLMは高い汎用性能を維持しながら攻撃成功率を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2025-08-21T02:39:14Z) - AlphaAlign: Incentivizing Safety Alignment with Extremely Simplified Reinforcement Learning [21.399086197886202]
大規模言語モデル(LLM)は、膨大な事前学習データから潜伏した安全性の理解を持っている。
安全報酬を検証可能な純粋強化学習フレームワークである textbfAlphaAlign を提案する。
これにより、モデルは、監督された安全固有の推論データに依存することなく、積極的に安全推論機能を開発することができる。
論文 参考訳(メタデータ) (2025-07-20T14:47:03Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention [14.509085965856643]
我々は,大規模言語モデルをジェイルブレイク攻撃から保護する新しい防御手法であるSafeIntervention(SafeInt)を提案する。
SafeIntのコアアイデアは、Jailbreakに関連する表現を拒絶領域に移動させることです。
6件のJailbreak攻撃、2件のJailbreakデータセット、2件のユーティリティベンチマークに関する包括的な実験を行います。
論文 参考訳(メタデータ) (2025-02-21T17:12:35Z) - Evaluating Defences against Unsafe Feedback in RLHF [26.872318173182414]
本稿では、強化学習による安全でないフィードバックからの学習について考察する。
安全に配慮したLLMは有害なテキストを生成することで、安全でない行動空間を容易に探索できることがわかった。
この脆弱性から保護するために、我々は、有害な微調整の防御を「単純」と「明示」の両方に適応させる。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。