論文の概要: RefusalBench: Why Refusal Rate Misranks Frontier LLMs on Biological Research Prompts
- arxiv url: http://arxiv.org/abs/2605.21545v1
- Date: Wed, 20 May 2026 09:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.935082
- Title: RefusalBench: Why Refusal Rate Misranks Frontier LLMs on Biological Research Prompts
- Title(参考訳): リファレルベンチ:なぜリファレルレートがフロンティアのLLMを誤解したのか
- Authors: Lukas Weidener, Marko Brkić, Mihailo Jovanović, Emre Ulgac, Aakaash Meduri,
- Abstract要約: 厳格な拒絶率は、同じプロンプトで0.1%から94.6%である。
18のフロンティアモデルのうち9つは、バイナリーリフェールメトリクスが検出できないデュアルユース層で、ヘッジ・ブット・ヘルプ部分コンプライアンスパターンを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier large language models are increasingly deployed as orchestration backbones for biological research workflows, yet no shared evidence base exists for comparing their refusal behaviour on legitimate research prompts. RefusalBench, introduced here, is a matched-triple benchmark of 141 prompts in 47 bundles that holds task framing constant while varying only biological risk tier (benign, borderline, dual-use), enabling tier-conditioned comparisons robust to subdomain confounding. A 15-prompt should-refuse positive-control module establishes per-model calibration floors; three models fail to refuse even these prompts. Across 19 frontier models in the May 2026 snapshot, strict refusal rates span 0.1% to 94.6% on identical prompts. Jurisdiction does not predict refusal in this snapshot (Mann-Whitney U, p = 0.393; EU n = 1, US bimodal); provider identity does, with Anthropic's API stack predicting refusal at OR = 21.03 (95% CI: 14.58-30.34 prompt-clustered; 5.70-77.55 under model-clustered GEE). This effect is best read as access-path-level rather than model-weight-level: 99.8% of Anthropic's strict refusals carry the same safety_policy adjudicated reason code, consistent with a small set of canonical refusal templates rather than case-by-case model reasoning. Strict refusal rate misranks safety calibration: Grok 4.20 achieves the highest tier discrimination (Youden's J = 0.787) while ranking only seventh by overall refusal rate, and Claude Opus 4.7's J dropped 65% from prior versions with no improvement in dual-use detection. Nine of 18 frontier models exhibit a hedge-but-help partial-compliance pattern at dual-use tier that binary refusal metrics cannot detect.
- Abstract(参考訳): 最前線の大規模言語モデルは、生物学的研究ワークフローのためのオーケストレーションバックボーンとしてますますデプロイされているが、正当な研究プロンプトに対する彼らの拒絶行動を比較するための共有エビデンス基盤は存在しない。
ここで紹介されたRefusalBenchは、47のバンドルで141のプロンプトのマッチした三重ベンチマークであり、タスクフレーミング定数を保ちながら、生物学的リスク層(良性、境界線、二重利用)だけを変更し、サブドメインの共役に頑健な層条件付き比較を可能にする。
15プロンプトの正制御モジュールは、モデルごとのキャリブレーションフロアを確立するが、3つのモデルではこれらのプロンプトも拒否できない。
2026年5月のスナップショットでは、19のフロンティアモデルで、厳格な拒絶率は、同じプロンプトで0.1%から94.6%である。
このスナップショット(Mann-Whitney U, p = 0.393; EU n = 1, US bimodal); プロバイダのIDは、OR = 21.03 (95% CI: 14.58-30.34 prompt-clustered; 5.70-77.55 under model-clustered GEE)で拒否を予測している。
この効果はモデルウェイトレベルよりもアクセスパスレベルとして最もよく読まれる: 99.8% の Anthropic の厳格な拒絶は、ケースバイケースのモデル推論ではなく、小さな標準の拒絶テンプレートセットと一致して、同じセーフティ/ポリティの調整された理由コードを持っている。
厳格な拒絶率は安全性の基準を誤っている:Grok 4.20は最高レベルの差別(Youden's J = 0.787)を達成し、全体の拒絶率で7位、Claude Opus 4.7's Jは以前のバージョンから65%低下し、二重使用検出は改善されなかった。
18のフロンティアモデルのうち9つは、バイナリーリフェールメトリクスが検出できないデュアルユース層で、ヘッジ・ブット・ヘルプ部分コンプライアンスパターンを示す。
関連論文リスト
- ContractBench: Can LLM Agents Preserve Observation Contracts? [9.057486468322933]
観察契約の遵守は、緊急かつ回帰的な能力であることを示す。
ContractBenchは、2つの障害モードを探索する33の二重軸タスクのベンチマークである。
i)評価モデルが80%,Claude-Opus-4.6が77.8%, (ii)Qwen 3.5で4B (0%) から9B (56.6%) の急激な家庭内能力崖が397B-A17Bで70.7%, (iii) GPT-5ファミリーでの非単調性スケーリングが消失した。
論文 参考訳(メタデータ) (2026-05-17T06:37:04Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - PBT-Bench: Benchmarking AI Agents on Property-Based Testing [29.035258104995204]
PBT-Benchは、40の実際のPythonライブラリにまたがる100のプロパティベースのテスト問題のベンチマークである。
各問題は1つ以上のセマンティックなバグ(総数365、平均3.65)を注入し、デフォルトのストラテジーなランダムな入力がほとんど起こらないように設計する。
PBT指導によるバグリコールは42.1%から83.4%の範囲で、オープンエンドベースラインでは31.4%から76.7%である。
論文 参考訳(メタデータ) (2026-05-13T18:01:05Z) - From Black Box to Glass Box: Cross-Model ASR Disagreement to Prioto Review in Ambient AI Scribe Documentation [43.148402136307716]
異種ASRシステム間のクロスモデル不一致は、基準のない不確実性信号として機能する。
商用APIとオープンソースエンジンにまたがる8つのASRシステムを備えた,50の公開医療用オーディオクリップを転写した。
低アグリメント領域は内容の不一致に富み、高リスク質量のクインタイル全体では53.9%から73.9%に増加した。
論文 参考訳(メタデータ) (2026-03-02T13:02:13Z) - When Prohibitions Become Permissions: Auditing Negation Sensitivity in Language Models [1.0671844383558033]
オープンソースモデルは、単純な否定の下で、時間の77%のアクションを推奨した。
金融シナリオは医療シナリオの2倍脆弱である。
現在のアライメント技術が達成するものと、安全なデプロイメントに必要なものとの間には、ギャップがある。
論文 参考訳(メタデータ) (2026-01-29T09:09:23Z) - Prompt Injection Evaluations: Refusal Boundary Instability and Artifact-Dependent Compliance in GPT-4-Series Models [0.0]
GPT-4.1 と GPT-4o の2つのモデルを評価する。
アーティファクトタイプは摂動スタイルよりも断裂の予測が強いことが分かりました。
断熱挙動は安定な二元性というよりは確率的であり, 人工物に依存した境界現象である。
論文 参考訳(メタデータ) (2026-01-25T17:14:33Z) - Causal Understanding by LLMs: The Role of Uncertainty [43.87879175532034]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。
因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (2025-09-24T13:06:35Z) - An Embarrassingly Simple Defense Against LLM Abliteration Attacks [47.347413305965006]
失語症と呼ばれる最近の攻撃は、拒否行動に最も責任がある唯一の潜伏方向を特定し、抑制する。
本稿では、モデルが拒否を表現する方法を根本的に変える防衛法を提案する。
微調整のLlama-2-7B-ChatとQwen2.5-Instructは、消音下で高い断熱率を維持するモデルを生成する。
論文 参考訳(メタデータ) (2025-05-25T09:18:24Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。