論文の概要: DDOR: Delta Debugging for Explainable Overrefusal Testing and Repair
- arxiv url: http://arxiv.org/abs/2606.03601v1
- Date: Tue, 02 Jun 2026 13:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.011915
- Title: DDOR: Delta Debugging for Explainable Overrefusal Testing and Repair
- Title(参考訳): DDOR: 説明可能なオーバーリファレンステストと修復のためのデルタデバッグ
- Authors: Qinyan Zhou, Peixin Zhang, Jun Sun, Haonan Zhang, Dongxia Wang,
- Abstract要約: DDOR(Delta for OverRefusal)は、オーバーリフレッシュテストと修復のための、完全に自動化され、説明可能なフレームワークである。
デルタデバッグを適用して最小限の拒絶トリガーフラグメント(mRTF)をローカライズする。
スケーラブルでモデル固有のオーバーリフレクションテストスイート(モデル毎に約1Kケース)を生成する。
- 参考スコア(独自算出の注目度): 17.573294728864443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While safety alignment and guardrails help large language models (LLMs) avoid harmful outputs, they can also induce overrefusal, i.e., unwarranted rejection of benign queries that merely appear risky. We present DDOR (Delta Debugging for OverRefusal), a fully automated and explainable framework for overrefusal testing and repair in a black-box setting, where only model inputs and outputs are accessible and internal safety mechanisms remain opaque. DDOR applies delta debugging to localize minimal refusal-triggering fragments (mRTFs) that provide phrase-level, explainable evidence for why a refusal occurs. Conditioned on these mRTFs, DDOR generates diverse, context-rich prompts and performs multi-oracle validation to filter intrinsically unsafe or ambiguous cases, producing scalable and model-specific overrefusal test suites (approximately 1K cases per model). Beyond evaluation, we further leverage localized mRTFs to perform targeted prompt repair, substantially reducing overrefusal while preserving the original intent and maintaining safety on genuinely harmful inputs. Overall, DDOR offers a practical end-to-end solution to both evaluate and mitigate overrefusal, improving LLM usability without sacrificing safety.
- Abstract(参考訳): 安全アライメントとガードレールは、大きな言語モデル(LLM)が有害な出力を避けるのに役立つが、それらはまた、過度な拒絶、すなわち、単に危険であるように見える良質なクエリの拒否を誘発する。
我々は,モデル入力と出力のみがアクセス可能であり,内部安全機構が不透明であるブラックボックス設定で,オーバーリファインテストと修復をオーバーリファインで完全に自動化し,説明可能なフレームワークDDOR(Delta Debugging for OverRefusal)を提案する。
DDORはデルタデバッギングを適用し、最小限のリファリング・トリガリング・フラグメント(mRTF)をローカライズする。
これらのmRTFを条件に、DDORは多様なコンテキストリッチなプロンプトを生成し、本質的に安全でないケースや曖昧なケースをフィルタリングするマルチオーラの検証を行い、スケーラブルでモデル固有のオーバーリファレンステストスイート(モデル毎に約1Kケース)を生成する。
評価の他に, 局所的なmRTFを活用して, 目標とする即時修復を行い, 本来の意図を維持しつつ, 過度な拒絶を著しく低減し, 真に有害な入力に対する安全性を維持する。
DDORは、オーバーリフレクションの評価と緩和を両立させる実用的なエンドツーエンドソリューションを提供し、安全性を犠牲にすることなくLCMのユーザビリティを向上させる。
関連論文リスト
- Guardian-as-an-Advisor: Advancing Next-Generation Guardian Models for Trustworthy LLMs [70.81495077853673]
ハードゲートのセーフティチェッカーは、しばしばベンダーのモデル仕様に過度に反抗し、不平を言う。
この研究は、ガーディアン・アズ・ア・アドバイザ(GaaA)というソフトゲーティングパイプラインを導入し、保護者がバイナリリスクラベルを予測し、このアドバイスを元のクエリに再推論する。
全体として、GaaAはモデル仕様に従うようモデルに指示し、過度な拒絶を減らしながら安全性を維持している。
論文 参考訳(メタデータ) (2026-04-08T23:47:29Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.476222570886483]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。