論文の概要: Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary
- arxiv url: http://arxiv.org/abs/2505.18325v2
- Date: Thu, 29 May 2025 13:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:34.095244
- Title: Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary
- Title(参考訳): 安全判断境界の未解決の観点からのLCMの過度拒絶の理解と緩和
- Authors: Licheng Pan, Yongqi Tong, Xin Zhang, Xiaolu Zhang, Jun Zhou, Zhixuan Chu,
- Abstract要約: オーバーリファールは通常、過保守な安全アライメントに起因している。
本稿では、過剰なプロンプトを戦略的にターゲットとするプロンプト生成と選択のための自動フレームワークであるRASSを提案する。
- 参考スコア(独自算出の注目度): 18.761164370036315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks, yet they often refuse to answer legitimate queries-a phenomenon known as overrefusal. Overrefusal typically stems from over-conservative safety alignment, causing models to treat many reasonable prompts as potentially risky. To systematically understand this issue, we probe and leverage the models'safety decision boundaries to analyze and mitigate overrefusal. Our findings reveal that overrefusal is closely tied to misalignment at these boundary regions, where models struggle to distinguish subtle differences between benign and harmful content. Building on these insights, we present RASS, an automated framework for prompt generation and selection that strategically targets overrefusal prompts near the safety boundary. By harnessing steering vectors in the representation space, RASS efficiently identifies and curates boundary-aligned prompts, enabling more effective and targeted mitigation of overrefusal. This approach not only provides a more precise and interpretable view of model safety decisions but also seamlessly extends to multilingual scenarios.We have explored the safety decision boundaries of various LLMs and construct the MORBench evaluation set to facilitate robust assessment of model safety and helpfulness across multiple languages. Code and datasets will be released at https://anonymous.4open.science/r/RASS-80D3.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクで顕著な能力を示してきたが、しばしば正当なクエリに答えることを拒否する。
オーバーリファールは通常、過保守的な安全アライメントに起因し、モデルが多くの合理的なプロンプトを潜在的に危険であるとして扱う。
この問題を体系的に理解するために,モデルの安全性決定境界を探索・活用し,過度な拒絶を解析・緩和する。
以上の結果から,これらの境界領域における過度な拒絶は,良性コンテンツと有害コンテンツとの微妙な相違を識別するのに苦慮していることが明らかとなった。
これらの知見に基づいて、安全境界付近で過度に拒絶するプロンプトを戦略的に狙う、迅速な生成と選択のための自動化されたフレームワークであるRASSを提案する。
表現空間におけるステアリングベクトルを活用することにより、RASSは境界に沿ったプロンプトを効果的に識別し、キュレートし、オーバーリフレクションのより効果的で目標とする緩和を可能にする。
本手法は, モデル安全性決定のより正確かつ解釈可能な視点を提供するだけでなく, 多言語シナリオにもシームレスに拡張すると共に, 各種LCMの安全性決定境界を探索し, モデル安全性と複数の言語間の有用性の堅牢性を評価するためのMORBench評価セットを構築した。
コードとデータセットはhttps://anonymous.4open.science/r/RASS-80D3で公開される。
関連論文リスト
- Subtle Risks, Critical Failures: A Framework for Diagnosing Physical Safety of LLMs for Embodied Decision Making [31.555271917529872]
本研究では,大規模言語モデル(LLM)の身体的安全性を体系的に評価するフレームワークであるSAFELを紹介する。
EMBODYGUARD は PDDL をベースとしたベンチマークであり,942 の LLM 生成シナリオで過度に悪意のある命令と文脈的に有害な命令の両方をカバーしている。
本稿は,現在のLLMにおける限界点を強調し,よりターゲットを絞った,よりモジュール化された,安全な具体的推論の基盤を提供する。
論文 参考訳(メタデータ) (2025-05-26T13:01:14Z) - Safety Alignment Can Be Not Superficial With Explicit Safety Signals [4.99563910067718]
大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に機能することを明らかにしている。
既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習できると考えられる。
安全関連バイナリ分類タスクを明示的に導入し,その信号を注意と復号化戦略に統合することにより,この曖昧さを解消する。
論文 参考訳(メタデータ) (2025-05-19T20:40:46Z) - Gradient Co-occurrence Analysis for Detecting Unsafe Prompts in Large Language Models [16.369885004916668]
安全でないプロンプトは大きな言語モデル(LLM)に重大な安全リスクをもたらす
安全クリティカルパラメータ識別の範囲を拡大する勾配共起解析法であるGradCooを導入する。
提案手法は,既存手法と比較して最先端(SOTA)性能を実現することができる。
論文 参考訳(メタデータ) (2025-02-18T01:14:46Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。
textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks [0.6282171844772422]
大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。
近年、自然言語処理タスクの逆例として命名されたエンティティが発見され、事前訓練されたLLMの知識の堅牢性に対するそれらの潜在的な影響に関する疑問が提起されている。
バイオメディカル知識のロバスト性を評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。
論文 参考訳(メタデータ) (2024-02-16T09:29:38Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。