論文の概要: Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context
- arxiv url: http://arxiv.org/abs/2601.17642v1
- Date: Sun, 25 Jan 2026 01:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.107396
- Title: Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context
- Title(参考訳): Health-ORSC-Bench:Health Contextにおけるオーバーリフレクションとセーフティコンプリートの測定ベンチマーク
- Authors: Zhihao Zhang, Liting Huang, Guanghao Wu, Preslav Nakov, Heng Ji, Usman Naseem,
- Abstract要約: Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
- 参考スコア(独自算出の注目度): 82.32380418146656
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Safety alignment in Large Language Models is critical for healthcare; however, reliance on binary refusal boundaries often results in \emph{over-refusal} of benign queries or \emph{unsafe compliance} with harmful ones. While existing benchmarks measure these extremes, they fail to evaluate Safe Completion: the model's ability to maximise helpfulness on dual-use or borderline queries by providing safe, high-level guidance without crossing into actionable harm. We introduce \textbf{Health-ORSC-Bench}, the first large-scale benchmark designed to systematically measure \textbf{Over-Refusal} and \textbf{Safe Completion} quality in healthcare. Comprising 31,920 benign boundary prompts across seven health categories (e.g., self-harm, medical misinformation), our framework uses an automated pipeline with human validation to test models at varying levels of intent ambiguity. We evaluate 30 state-of-the-art LLMs, including GPT-5 and Claude-4, revealing a significant tension: safety-optimised models frequently refuse up to 80\% of "Hard" benign prompts, while domain-specific models often sacrifice safety for utility. Our findings demonstrate that model family and size significantly influence calibration: larger frontier models (e.g., GPT-5, Llama-4) exhibit "safety-pessimism" and higher over-refusal than smaller or MoE-based counterparts (e.g., Qwen-3-Next), highlighting that current LLMs struggle to balance refusal and compliance. Health-ORSC-Bench provides a rigorous standard for calibrating the next generation of medical AI assistants toward nuanced, safe, and helpful completions. The code and data will be released upon acceptance. \textcolor{red}{Warning: Some contents may include toxic or undesired contents.}
- Abstract(参考訳): 大規模言語モデルにおける安全性の整合性は医療において重要であるが、バイナリーリフェール境界に依存すると、良性クエリの"emph{over-refusal}"や有害なクエリの"emph{unsafe compliance"が生じることが多い。
モデルが安全でハイレベルなガイダンスを提供することで、動作可能な害にぶつかることなく、デュアルユースやバウンダリラインクエリの利便性を最大化する能力です。
これは、医療における \textbf{Over-Refusal} と \textbf{Safe Completion} の品質を体系的に測定するために設計された最初の大規模ベンチマークである。
われわれのフレームワークは、7つの健康カテゴリー(例えば、セルフハーム、医療の誤報)にまたがる31,920の良識境界を補完し、人間の検証による自動パイプラインを使用して、さまざまな意図の曖昧さでモデルをテストする。
GPT-5やClaude-4を含む30の最先端LCMを評価し,安全性に最適化されたモデルでは,最大80%の"ハード"ベニグインプロンプトを拒否することが多いが,ドメイン固有モデルではユーティリティの安全性を犠牲にすることが多い。
モデルファミリーとサイズがキャリブレーションに大きく影響していることが示される: より大きなフロンティアモデル(例: GPT-5, Llama-4)は、小型またはMoEベースのモデル(例: Qwen-3-Next)よりも「安全ペシミズム」と高いオーバーリフレクション(例: Qwen-3-Next)を示し、現在のLLMは、拒絶とコンプライアンスのバランスに苦慮している。
Health-ORSC-Benchは、次世代の医療AIアシスタントを、ニュアンスで安全で有用な完成に向けて調整するための厳格な標準を提供する。
コードとデータは受理時にリリースされる。
\textcolor{red}{Warning: 有毒または望ましくない内容を含むコンテンツ。
※
関連論文リスト
- Mind the Ambiguity: Aleatoric Uncertainty Quantification in LLMs for Safe Medical Question Answering [6.782185804809171]
医療質問における大規模言語モデル あいまいなユーザクエリによって深刻な妨害を受ける。
本稿では,入力のあいまいさを,不特定入力から生じる既約不確実性であるアレタリック不確実性(AU)にリンクすることで,この課題を定式化する。
隠れ状態から直接入力のあいまいさを検出する軽量モジュールであるAU-Probeを組み込んだ,新しいAU誘導型"Clarify-Before-Answer"フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-24T03:44:08Z) - SALP-CG: Standard-Aligned LLM Pipeline for Classifying and Grading Large Volumes of Online Conversational Health Data [7.015777723337828]
本研究では,大規模言語モデルに基づく抽出パイプラインSALP-CGを用いて,オンライン会話型健康データにおけるプライバシリスクの分類と評価を行う。
我々は、GB/T 39725-2020に従って、健康データ分類と格付け規則を締結した。
論文 参考訳(メタデータ) (2025-12-25T01:52:46Z) - GuardEval: A Multi-Perspective Benchmark for Evaluating Safety, Fairness, and Robustness in LLM Moderators [9.212268642636007]
大規模言語モデル(LLM)のトレーニングと評価のためのベンチマークデータセットであるGuardEvalを提案する。
GuardEvalでトレーニングされたGemma3-12Bの微調整版であるGemmaGuard(GGuard)も紹介し、詳細なラベルでコンテンツモデレーションを評価する。
マルチパースペクティブで人間中心の安全ベンチマークは、偏りと矛盾するモデレーションの決定を減らすために重要であることを示す。
論文 参考訳(メタデータ) (2025-12-22T14:49:28Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs [7.597770587484936]
医療における大規模言語モデル(LLM)の安全性を評価するためのベンチマークであるCARES(Clinical Adversarial Robustness and Evaluation of Safety)を紹介する。
CARESには、8つの医療安全原則にまたがる18,000以上のプロンプト、4つの有害レベル、4つのプロンプトスタイルがあり、悪意のあるユースケースと良心的なユースケースの両方をシミュレートしている。
我々の分析によると、多くの最先端のLSMは、有害なプロンプトを微妙に言い換えるジェイルブレイクに対して脆弱でありながら、安全で非典型的なクエリを過剰に再利用している。
論文 参考訳(メタデータ) (2025-05-16T16:25:51Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。