論文の概要: Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check
- arxiv url: http://arxiv.org/abs/2509.11629v1
- Date: Mon, 15 Sep 2025 06:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.176276
- Title: Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check
- Title(参考訳): Reasoned Safety Alignment: Answer-Then-Checkによるジェイルブレイク防御の保証
- Authors: Chentao Cao, Xiaojun Xu, Bo Han, Hang Li,
- Abstract要約: 我々はAnswer-Then-Checkと呼ばれる新しい安全アライメント手法を導入する。
提案手法は,モデルが思考の質問に対して直接回答し,その安全性を批判的に評価することを可能にする。
わずか500のサンプルの小さなサブセットでのトレーニングは、完全なデータセットを使用するのに匹敵するパフォーマンスを達成できることに気付きました。
- 参考スコア(独自算出の注目度): 32.82170313959032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) continue to advance in capabilities, ensuring their safety against jailbreak attacks remains a critical challenge. In this paper, we introduce a novel safety alignment approach called Answer-Then-Check, which enhances LLM robustness against malicious prompts by applying thinking ability to mitigate jailbreaking problems before producing a final answer to the user. Our method enables models to directly answer the question in their thought and then critically evaluate its safety before deciding whether to provide it. To implement this approach, we construct the Reasoned Safety Alignment (ReSA) dataset, comprising 80K examples that teach models to reason through direct responses and then analyze their safety. Experimental results demonstrate that our approach achieves the Pareto frontier with superior safety capability while decreasing over-refusal rates on over-refusal benchmarks. Notably, the model fine-tuned with ReSA maintains general reasoning capabilities on benchmarks like MMLU, MATH500, and HumanEval. Besides, our method equips models with the ability to perform safe completion. Unlike post-hoc methods that can only reject harmful queries, our model can provide helpful and safe alternative responses for sensitive topics (e.g., self-harm). Furthermore, we discover that training on a small subset of just 500 examples can achieve comparable performance to using the full dataset, suggesting that safety alignment may require less data than previously assumed.
- Abstract(参考訳): 大規模言語モデル(LLM)は能力の向上を続けており、ジェイルブレイク攻撃に対する安全性を確保することは依然として重要な課題である。
本稿では,悪質なプロンプトに対するLSMの堅牢性を向上する,アンスワー・テン・チェックと呼ばれる新しい安全アライメント手法を提案する。
提案手法により,モデルが思考の質問に直接答えることができ,それを提供するかどうかを判断する前に,その安全性を批判的に評価することができる。
このアプローチを実現するために、Reasoned Safety Alignment(ReSA)データセットを構築し、モデルに直接的な応答を通じて推論を教え、その安全性を分析する80Kの例で構成された。
提案手法は, オーバーリファレンスベンチマークにおいて, オーバーリファレンス率を低下させながら, 安全性に優れたパレートフロンティアを実現することを実証した。
特に、ReSAで微調整されたモデルは、MMLU、MATH500、HumanEvalなどのベンチマークで一般的な推論能力を維持している。
さらに,本手法はモデルに安全な補完を行う能力を持たせる。
有害なクエリのみを拒否できるポストホックメソッドとは異なり、我々のモデルは、センシティブなトピック(例えば、セルフハーム)に対して有用な、安全な代替応答を提供することができる。
さらに、わずか500のサンプルの小さなサブセットでのトレーニングは、完全なデータセットを使用する場合と同等のパフォーマンスが得られることを発見し、安全アライメントが以前想定されていたよりも少ないデータを必要とする可能性があることを示唆した。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。