Fugu-MT 論文翻訳(概要): DDOR: Delta Debugging for Explainable Overrefusal Testing and Repair

論文の概要: DDOR: Delta Debugging for Explainable Overrefusal Testing and Repair

arxiv url: http://arxiv.org/abs/2606.03601v1
Date: Tue, 02 Jun 2026 13:07:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 22:00:05.011915
Title: DDOR: Delta Debugging for Explainable Overrefusal Testing and Repair
Title（参考訳）: DDOR: 説明可能なオーバーリファレンステストと修復のためのデルタデバッグ
Authors: Qinyan Zhou, Peixin Zhang, Jun Sun, Haonan Zhang, Dongxia Wang,
Abstract要約: DDOR(Delta for OverRefusal)は、オーバーリフレッシュテストと修復のための、完全に自動化され、説明可能なフレームワークである。デルタデバッグを適用して最小限の拒絶トリガーフラグメント(mRTF)をローカライズする。スケーラブルでモデル固有のオーバーリフレクションテストスイート(モデル毎に約1Kケース)を生成する。
参考スコア（独自算出の注目度）: 17.573294728864443
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While safety alignment and guardrails help large language models (LLMs) avoid harmful outputs, they can also induce overrefusal, i.e., unwarranted rejection of benign queries that merely appear risky. We present DDOR (Delta Debugging for OverRefusal), a fully automated and explainable framework for overrefusal testing and repair in a black-box setting, where only model inputs and outputs are accessible and internal safety mechanisms remain opaque. DDOR applies delta debugging to localize minimal refusal-triggering fragments (mRTFs) that provide phrase-level, explainable evidence for why a refusal occurs. Conditioned on these mRTFs, DDOR generates diverse, context-rich prompts and performs multi-oracle validation to filter intrinsically unsafe or ambiguous cases, producing scalable and model-specific overrefusal test suites (approximately 1K cases per model). Beyond evaluation, we further leverage localized mRTFs to perform targeted prompt repair, substantially reducing overrefusal while preserving the original intent and maintaining safety on genuinely harmful inputs. Overall, DDOR offers a practical end-to-end solution to both evaluate and mitigate overrefusal, improving LLM usability without sacrificing safety.
Abstract（参考訳）: 安全アライメントとガードレールは、大きな言語モデル(LLM)が有害な出力を避けるのに役立つが、それらはまた、過度な拒絶、すなわち、単に危険であるように見える良質なクエリの拒否を誘発する。我々は,モデル入力と出力のみがアクセス可能であり,内部安全機構が不透明であるブラックボックス設定で,オーバーリファインテストと修復をオーバーリファインで完全に自動化し,説明可能なフレームワークDDOR(Delta Debugging for OverRefusal)を提案する。 DDORはデルタデバッギングを適用し、最小限のリファリング・トリガリング・フラグメント(mRTF)をローカライズする。これらのmRTFを条件に、DDORは多様なコンテキストリッチなプロンプトを生成し、本質的に安全でないケースや曖昧なケースをフィルタリングするマルチオーラの検証を行い、スケーラブルでモデル固有のオーバーリファレンステストスイート(モデル毎に約1Kケース)を生成する。評価の他に, 局所的なmRTFを活用して, 目標とする即時修復を行い, 本来の意図を維持しつつ, 過度な拒絶を著しく低減し, 真に有害な入力に対する安全性を維持する。 DDORは、オーバーリフレクションの評価と緩和を両立させる実用的なエンドツーエンドソリューションを提供し、安全性を犠牲にすることなくLCMのユーザビリティを向上させる。

論文の概要: DDOR: Delta Debugging for Explainable Overrefusal Testing and Repair

関連論文リスト