論文の概要: Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment
- arxiv url: http://arxiv.org/abs/2603.11388v1
- Date: Thu, 12 Mar 2026 00:07:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.721267
- Title: Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment
- Title(参考訳): 不活性化型リファレンストリガー : 安全アライメントにおける過剰リファレンス理解と緩和
- Authors: Zhiyu Xue, Zimo Qi, Guangliang Liu, Bocheng Chen, Ramtin Pedarsani,
- Abstract要約: 安全性アライメントは、大規模な言語モデル(LLM)が、拒絶された回答と組み合わせた有害なクエリのトレーニング後、有害な要求を拒否することを保証することを目的としている。
本稿では,安全アライメント下での過度な拒絶がどのように起こるのかを考察し,本研究から着想を得た緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 14.672527265339722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment aims to ensure that large language models (LLMs) refuse harmful requests by post-training on harmful queries paired with refusal answers. Although safety alignment is widely adopted in industry, the overrefusal problem where aligned LLMs also reject benign queries after safety alignment post-training, remains insufficiently studied. Such an issue degrades the usability of safety alignment in real-world applications. In this paper, we examine how overrefusal arises under safety alignment, and propose a mitigation strategy inspired by our findings. We define refusal triggers as linguistic cues in the training data that elicit refusal responses, safety alignment encourages LLMs to associate refusal triggers within a training sample with refusal responses, leading aligned LLMs to refuse harmful queries. However, the refusal triggers include not only harmful linguistic cues but also non-harmful cues, therefore causing overrefusal to benign queries. Building on this mechanistic analysis, we propose a method that explicitly considers refusal triggers in the safety alignment fine-tuning. Empirical results demonstrate that our approach achieves a more favorable trade-off between defense against jailbreak attacks and responsiveness to benign queries, outperforming prior methods. Warning: this paper contains harmful and biased sentences.
- Abstract(参考訳): 安全性アライメントは、大規模な言語モデル(LLM)が、拒絶された回答と組み合わせた有害なクエリのトレーニング後、有害な要求を拒否することを保証することを目的としている。
安全アライメントは,業界において広く採用されているが,安全アライメント後の良質な問い合わせも拒否する過度な問題は,まだ十分に研究されていない。
このような問題は、現実世界のアプリケーションにおける安全アライメントのユーザビリティを低下させる。
本稿では,安全アライメント下での過度な拒絶がどのように起こるのかを考察し,本研究から着想を得た緩和戦略を提案する。
我々は、リファインダーを、リファインダー応答を誘発するトレーニングデータにおける言語的手がかりとして定義し、安全アライメントは、リファインダーがリファインダー応答とトレーニングサンプル内のリファインダーを関連付けることを奨励し、アライメントLLMは有害なクエリを拒否する。
しかし、拒絶の引き金には有害な言語的手がかりだけでなく、害のない手がかりも含まれるため、過剰な拒否がクエリの良し悪しを引き起こす。
この機構解析に基づいて、安全アライメントの微調整における拒絶トリガを明示的に考慮する手法を提案する。
実験結果から,本手法は,jailbreak攻撃に対する防御と,クエリに対する応答性とのトレードオフを良好に達成し,従来手法よりも優れていることを示す。
警告: 本論文は有害で偏見のある文を含む。
関連論文リスト
- Learning to Extract Context for Context-Aware LLM Inference [60.376872353918394]
大型言語モデル(LLM)へのユーザープロンプトは曖昧か不明確であることが多い。
ユーザの意図、事前知識、リスク要因によって形成されるコンテキスト的手がかりは、適切な応答を構成するものに影響を与える。
本稿では,ユーザプロンプト自体からコンテキスト情報を抽出し,活用するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-12T19:10:08Z) - Beyond Over-Refusal: Scenario-Based Diagnostics and Post-Hoc Mitigation for Exaggerated Refusals in LLMs [10.896368527058714]
大きな言語モデル(LLM)は、しばしば偽の拒絶を発生させ、安全でないクエリに似た用語を含む良質な要求を減少させる。
単一ターンプロンプトに対するXSB(Exaggerated Safety Benchmark)、リファイン誘導トリガを識別する"Focus"キーワードのアノテーション、マルチターンシナリオベースのExaggerated Safety Benchmark(MS-XSB)の2つの総合ベンチマークを紹介した。
ベンチマークの結果,近年の多種多様なLCMにおいて過大な拒絶が持続し,特に複雑なマルチターンシナリオで顕著であることが判明した。
論文 参考訳(メタデータ) (2025-10-09T12:38:16Z) - Toward Safer Diffusion Language Models: Discovery and Mitigation of Priming Vulnerability [5.650647159993238]
拡散言語モデル (DLMs) は反復的 denoising を通じてトークンを並列に生成する。
本稿では, DLM が反復的 denoising プロセスから生じる致命的な脆弱性を明らかにする。
汚染された中間状態から安全な応答を生成するためにモデルを訓練するDLMに適した新しい安全アライメント手法を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:35:23Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior [59.20260988638777]
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。
15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-03-22T23:35:49Z) - Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety [41.32331563680919]
大きな言語モデル(LLM)は、従来の安全アライメントの弱点を利用するジェイルブレイク攻撃に対して脆弱である。
解釈可能なLLM安全性のための推論強化ファインタニング(Rational)を提案する。
合理的列車は、応答前に明確な安全な推論を行うようにモデル化する。
論文 参考訳(メタデータ) (2025-03-06T22:47:45Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。