論文の概要: Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation
- arxiv url: http://arxiv.org/abs/2511.19009v1
- Date: Mon, 24 Nov 2025 11:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.18092
- Title: Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation
- Title(参考訳): 安全表現による大規模言語モデルの過剰拒絶の理解と緩和
- Authors: Junbo Zhang, Ran Chen, Qianli Zhou, Xinyang Deng, Wen Jiang,
- Abstract要約: 大きな言語モデルには安全性の脆弱性がある。
モデル安全性の改善は、しばしば過度に拒絶されるコストがかかる。
LLMの安全性表現を介入することで過度な拒絶を緩和するMOSRを提案する。
- 参考スコア(独自算出の注目度): 23.989016366701232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models demonstrate powerful capabilities across various natural language processing tasks, yet they also harbor safety vulnerabilities. To enhance LLM safety, various jailbreak defense methods have been proposed to guard against harmful outputs. However, improvements in model safety often come at the cost of severe over-refusal, failing to strike a good balance between safety and usability. In this paper, we first analyze the causes of over-refusal from a representation perspective, revealing that over-refusal samples reside at the boundary between benign and malicious samples. Based on this, we propose MOSR, designed to mitigate over-refusal by intervening the safety representation of LLMs. MOSR incorporates two novel components: (1) Overlap-Aware Loss Weighting, which determines the erasure weight for malicious samples by quantifying their similarity to pseudo-malicious samples in the representation space, and (2) Context-Aware Augmentation, which supplements the necessary context for rejection decisions by adding harmful prefixes before rejection responses. Experiments demonstrate that our method outperforms existing approaches in mitigating over-refusal while largely maintaining safety. Overall, we advocate that future defense methods should strike a better balance between safety and over-refusal.
- Abstract(参考訳): 大きな言語モデルは、さまざまな自然言語処理タスクにまたがる強力な機能を示しているが、安全上の脆弱性もある。
LLMの安全性を高めるため、有害な出力を保護するために様々なジェイルブレイク防御法が提案されている。
しかし、モデル安全性の改善は、しばしば深刻な過度な拒絶の犠牲となり、安全性とユーザビリティのバランスが良くない。
本稿では、まず、表現の観点から、過剰拒絶の原因を解析し、過剰拒絶サンプルが良性サンプルと悪意サンプルの境界にあることを明らかにした。
そこで本研究では, LLMの安全性表現を介入することにより, 過度な拒絶を緩和するMOSRを提案する。
MOSRは,(1)表現空間における擬似悪意サンプルとの類似性を定量化して悪意サンプルの消去重量を決定するオーバーラップ・アウェア・ロス・ウェイトリング,(2)拒絶応答の前に有害接頭辞を追加することで拒絶決定に必要なコンテキストを補完するコンテキスト・アウェア・アジュメンテーションの2つの新しい構成要素を取り入れた。
実験により, 本手法は, 過度な拒絶を緩和し, 安全性を保ちながら, 既存の手法よりも優れていることが示された。
全体として、我々は、将来の防衛手法は安全性と過剰な拒絶のバランスを良くするべきだと提唱する。
関連論文リスト
- ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。
近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文 参考訳(メタデータ) (2025-05-26T08:25:25Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - From Representational Harms to Quality-of-Service Harms: A Case Study on Llama 2 Safety Safeguards [4.0645651835677565]
我々は、既に緩和されたバイアスのモデルを評価することにより、安全対策の有効性を検討する。
非有毒なプロンプトのセットを作成し、それをLlamaモデルの評価に用いる。
安全と健康のトレードオフは、サービス品質の害につながる可能性のある特定の人口集団にとってより顕著である。
論文 参考訳(メタデータ) (2024-03-20T00:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。