論文の概要: Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary
- arxiv url: http://arxiv.org/abs/2505.18325v2
- Date: Thu, 29 May 2025 13:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:34.095244
- Title: Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary
- Title(参考訳): 安全判断境界の未解決の観点からのLCMの過度拒絶の理解と緩和
- Authors: Licheng Pan, Yongqi Tong, Xin Zhang, Xiaolu Zhang, Jun Zhou, Zhixuan Chu,
- Abstract要約: オーバーリファールは通常、過保守な安全アライメントに起因している。
本稿では、過剰なプロンプトを戦略的にターゲットとするプロンプト生成と選択のための自動フレームワークであるRASSを提案する。
- 参考スコア(独自算出の注目度): 18.761164370036315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks, yet they often refuse to answer legitimate queries-a phenomenon known as overrefusal. Overrefusal typically stems from over-conservative safety alignment, causing models to treat many reasonable prompts as potentially risky. To systematically understand this issue, we probe and leverage the models'safety decision boundaries to analyze and mitigate overrefusal. Our findings reveal that overrefusal is closely tied to misalignment at these boundary regions, where models struggle to distinguish subtle differences between benign and harmful content. Building on these insights, we present RASS, an automated framework for prompt generation and selection that strategically targets overrefusal prompts near the safety boundary. By harnessing steering vectors in the representation space, RASS efficiently identifies and curates boundary-aligned prompts, enabling more effective and targeted mitigation of overrefusal. This approach not only provides a more precise and interpretable view of model safety decisions but also seamlessly extends to multilingual scenarios.We have explored the safety decision boundaries of various LLMs and construct the MORBench evaluation set to facilitate robust assessment of model safety and helpfulness across multiple languages. Code and datasets will be released at https://anonymous.4open.science/r/RASS-80D3.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクで顕著な能力を示してきたが、しばしば正当なクエリに答えることを拒否する。
オーバーリファールは通常、過保守的な安全アライメントに起因し、モデルが多くの合理的なプロンプトを潜在的に危険であるとして扱う。
この問題を体系的に理解するために,モデルの安全性決定境界を探索・活用し,過度な拒絶を解析・緩和する。
以上の結果から,これらの境界領域における過度な拒絶は,良性コンテンツと有害コンテンツとの微妙な相違を識別するのに苦慮していることが明らかとなった。
これらの知見に基づいて、安全境界付近で過度に拒絶するプロンプトを戦略的に狙う、迅速な生成と選択のための自動化されたフレームワークであるRASSを提案する。
表現空間におけるステアリングベクトルを活用することにより、RASSは境界に沿ったプロンプトを効果的に識別し、キュレートし、オーバーリフレクションのより効果的で目標とする緩和を可能にする。
本手法は, モデル安全性決定のより正確かつ解釈可能な視点を提供するだけでなく, 多言語シナリオにもシームレスに拡張すると共に, 各種LCMの安全性決定境界を探索し, モデル安全性と複数の言語間の有用性の堅牢性を評価するためのMORBench評価セットを構築した。
コードとデータセットはhttps://anonymous.4open.science/r/RASS-80D3で公開される。
関連論文リスト
- Case-based Reasoning Augmented Large Language Model Framework for Decision Making in Realistic Safety-Critical Driving Scenarios [1.5367554212163714]
本稿では,ケースベース推論拡張大言語モデル(CBR-LLM)フレームワークを提案する。
本手法は,ダッシュカム映像からのセマンティックシーン理解と,関連する過去の運転事例の検索を統合する。
実験により、我々のフレームワークは意思決定の正確さ、品質の正当化、および人間の専門家の行動との整合性を改善することが示された。
論文 参考訳(メタデータ) (2025-06-25T15:19:25Z) - ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - Extending Epistemic Uncertainty Beyond Parameters Would Assist in Designing Reliable LLMs [40.7342896954488]
我々は、不確実性を推論し、不確実性の再現性を明確化するコヒーレントな基盤を提供する枠組みの採用を提唱する。
受動的回避よりも能動的解決をサポートすることで、より信頼性が高く透明で広く適用可能なLCMシステムへの扉を開くことができる。
論文 参考訳(メタデータ) (2025-06-09T05:52:03Z) - Learning Safety Constraints for Large Language Models [41.95596134688853]
大規模言語モデル(LLM)は有害なアウトプットと敵の攻撃に対する脆弱性を通じて重大な安全リスクを生じさせる。
モデル表現空間において,複数の安全制約を直接学習し,適用する,安全のための幾何学的アプローチであるSaPを提案する。
我々は,ポリトープのファセットを介して安全かつ安全でない領域を識別し,安全でない出力の検出と修正を可能にするフレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-30T10:30:24Z) - Subtle Risks, Critical Failures: A Framework for Diagnosing Physical Safety of LLMs for Embodied Decision Making [31.555271917529872]
本研究では,大規模言語モデル(LLM)の身体的安全性を体系的に評価するフレームワークであるSAFELを紹介する。
EMBODYGUARD は PDDL をベースとしたベンチマークであり,942 の LLM 生成シナリオで過度に悪意のある命令と文脈的に有害な命令の両方をカバーしている。
本稿は,現在のLLMにおける限界点を強調し,よりターゲットを絞った,よりモジュール化された,安全な具体的推論の基盤を提供する。
論文 参考訳(メタデータ) (2025-05-26T13:01:14Z) - Safety Alignment Can Be Not Superficial With Explicit Safety Signals [4.99563910067718]
大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に機能することを明らかにしている。
既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習できると考えられる。
安全関連バイナリ分類タスクを明示的に導入し,その信号を注意と復号化戦略に統合することにより,この曖昧さを解消する。
論文 参考訳(メタデータ) (2025-05-19T20:40:46Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - Gradient Co-occurrence Analysis for Detecting Unsafe Prompts in Large Language Models [16.369885004916668]
安全でないプロンプトは大きな言語モデル(LLM)に重大な安全リスクをもたらす
安全クリティカルパラメータ識別の範囲を拡大する勾配共起解析法であるGradCooを導入する。
提案手法は,既存手法と比較して最先端(SOTA)性能を実現することができる。
論文 参考訳(メタデータ) (2025-02-18T01:14:46Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。
textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks [0.6282171844772422]
大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。
近年、自然言語処理タスクの逆例として命名されたエンティティが発見され、事前訓練されたLLMの知識の堅牢性に対するそれらの潜在的な影響に関する疑問が提起されている。
バイオメディカル知識のロバスト性を評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。
論文 参考訳(メタデータ) (2024-02-16T09:29:38Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。