論文の概要: Self-Guided Defense: Adaptive Safety Alignment for Reasoning Models via Synthesized Guidelines
- arxiv url: http://arxiv.org/abs/2511.21214v1
- Date: Wed, 26 Nov 2025 09:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.040967
- Title: Self-Guided Defense: Adaptive Safety Alignment for Reasoning Models via Synthesized Guidelines
- Title(参考訳): 自己誘導型防衛:合成ガイドラインによる推論モデルのための適応型安全アライメント
- Authors: Yuhang Wang, Yanxu Zhu, Dongyuan Lu, Jitao Sang,
- Abstract要約: 本稿では,Synthesized Guideline-based Adaptive Safety Alignment (SGASA)フレームワークを紹介する。
モデル生成安全ガイドラインを内包し、敵のプロンプトに対する堅牢性を強化するモデルの能力を強化する。
複数のデータセットにわたる実験により、SGASAはモデルの安全性を大幅に改善し、適応性とスケーラブルな効率性を検証する。
- 参考スコア(独自算出の注目度): 31.031589383127677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning models have demonstrated remarkable capabilities in complex reasoning tasks. However, ensuring their safety against adversarial jailbreak prompts remains a critical challenge. Due to the covert and deceptive nature of such prompts, they can often evade built-in safety mechanisms and lead to the generation of harmful content. This underscores the need for an adaptive safety alignment approach that enables models to autonomously reinforce their defenses in response to adversarial inputs. This paper introduces the Synthesized Guideline-based Adaptive Safety Alignment (SGASA) framework, which internalizes model-generated safety guidelines to strengthen models' ability to enhance robustness against harmful adversarial prompts while minimizing unnecessary refusals of benign requests. SGASA consists of two key stages: Data Pre-synthesis, which generates safety guidelines and augmented prompts; and Alignment Fine-tuning, which leverages Supervised Fine-tuning (SFT) and Direct Preference Optimization (DPO) to embed these guidelines into the model. Extensive experiments across multiple datasets demonstrate that SGASA significantly improves model safety, validating its adaptive and scalable effectiveness.
- Abstract(参考訳): 推論モデルは複雑な推論タスクにおいて顕著な能力を示した。
しかし、敵の脱獄プロンプトに対する安全を確保することは、依然として重要な課題である。
このようなプロンプトの隠蔽性や騙し性から、ビルトインの安全機構を回避し、有害な内容の生成につながることがしばしばある。
このことは、モデルが敵の入力に応じて自律的に防御を強化することができる適応型安全アライメントアプローチの必要性を浮き彫りにしている。
本稿では、モデル生成安全ガイドラインを内包し、有害な敵のプロンプトに対する堅牢性を高めるとともに、良心的要求の不要な拒絶を最小限に抑えるため、モデル生成安全ガイドラインを内包するSynthesized Guideline-based Adaptive Safety Alignment(SGASA)フレームワークを提案する。
SGASAは、安全ガイドラインと強化プロンプトを生成するデータ事前合成と、スーパービジョンファインチューニング(SFT)とダイレクトパラメータ最適化(DPO)を活用してこれらのガイドラインをモデルに組み込むアライメントファインチューニングの2つの主要なステージで構成されている。
複数のデータセットにわたる大規模な実験により、SGASAはモデルの安全性を大幅に改善し、適応性とスケーラブルな有効性を検証した。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness [0.0]
大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。
本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-26T06:52:22Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。