論文の概要: SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning
- arxiv url: http://arxiv.org/abs/2505.16186v1
- Date: Thu, 22 May 2025 03:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.016949
- Title: SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning
- Title(参考訳): SafeKey:安全推論のためのAha-Moment Insightsを増幅する
- Authors: Kaiwen Zhou, Xuandong Zhao, Gaowen Liu, Jayanth Srinivasa, Aosong Feng, Dawn Song, Xin Eric Wang,
- Abstract要約: 大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
- 参考スコア(独自算出の注目度): 76.56522719330911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) introduce a new generation paradigm of explicitly reasoning before answering, leading to remarkable improvements in complex tasks. However, they pose great safety risks against harmful queries and adversarial attacks. While recent mainstream safety efforts on LRMs, supervised fine-tuning (SFT), improve safety performance, we find that SFT-aligned models struggle to generalize to unseen jailbreak prompts. After thorough investigation of LRMs' generation, we identify a safety aha moment that can activate safety reasoning and lead to a safe response. This aha moment typically appears in the `key sentence', which follows models' query understanding process and can indicate whether the model will proceed safely. Based on these insights, we propose SafeKey, including two complementary objectives to better activate the safety aha moment in the key sentence: (1) a Dual-Path Safety Head to enhance the safety signal in the model's internal representations before the key sentence, and (2) a Query-Mask Modeling objective to improve the models' attention on its query understanding, which has important safety hints. Experiments across multiple safety benchmarks demonstrate that our methods significantly improve safety generalization to a wide range of jailbreak attacks and out-of-distribution harmful prompts, lowering the average harmfulness rate by 9.6\%, while maintaining general abilities. Our analysis reveals how SafeKey enhances safety by reshaping internal attention and improving the quality of hidden representations.
- Abstract(参考訳): 大規模推論モデル(LRM)は、応答前に明示的に推論する新しい世代パラダイムを導入し、複雑なタスクを顕著に改善する。
しかし、有害なクエリや敵の攻撃に対して非常に安全なリスクを負う。
近年, LRMの安全対策, 教師付き微調整(SFT), 安全性向上等が主流となっているが, SFT 対応モデルでは脱獄プロンプトの一般化に苦慮している。
LRMの世代を徹底的に調査した結果、安全推論を活性化し、安全な応答をもたらす安全アハモーメントが同定された。
このahaモーメントは通常、モデルのクエリ理解プロセスに従い、モデルが安全に進行するかどうかを示す'key sentence'に現れる。
これらの知見に基づいて,キー文の安全性向上のための2つの補完的目的を含むSafeKeyを提案する。(1)キー文の前にモデルの内部表現における安全性信号を強化するデュアルパスセーフティヘッド,(2)重要な安全ヒントを有するクエリ理解に対するモデルの注意向上を目的としたクエリマスクモデリングである。
複数の安全ベンチマークを用いて行った実験により、我々の方法は幅広いジェイルブレイク攻撃やアウト・オブ・ディストリビューションによる有害なプロンプトに対する安全性の一般化を著しく改善し、一般的な能力を維持しつつ、平均有害度を9.6\%低下させることが示された。
分析の結果,SafeKeyは内部の注意を再構築し,隠れた表現の質を向上させることで,安全性を高めることが明らかになった。
関連論文リスト
- Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [30.774446187857475]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。
分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。
これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文 参考訳(メタデータ) (2025-05-10T06:59:36Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。