論文の概要: RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models
- arxiv url: http://arxiv.org/abs/2510.10390v1
- Date: Sun, 12 Oct 2025 00:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.917405
- Title: RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models
- Title(参考訳): RefusalBench: 接地言語モデルにおける選択的拒絶の生成的評価
- Authors: Aashiq Muhamed, Leonardo F. R. Ribeiro, Markus Dreyer, Virginia Smith, Mona T. Diab,
- Abstract要約: 欠陥のあるシステムに基づいて、言語モデルが回答を拒否する能力は、依然として重大な障害点である。
RefusalBenchは、制御された言語コンテキストを通して診断テストケースを作成するジェネレーティブな方法論である。
選択的な拒絶は、改善への明確な道筋を提供する列車で、アライメントに敏感な能力であることがわかった。
- 参考スコア(独自算出の注目度): 43.76961935990733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of language models in RAG systems to selectively refuse to answer based on flawed context is critical for safety, yet remains a significant failure point. Our large-scale study reveals that even frontier models struggle in this setting, with refusal accuracy dropping below 50% on multi-document tasks, while exhibiting either dangerous overconfidence or overcaution. Static benchmarks fail to reliably evaluate this capability, as models exploit dataset-specific artifacts and memorize test instances. We introduce RefusalBench, a generative methodology that programmatically creates diagnostic test cases through controlled linguistic perturbation. Our framework employs 176 distinct perturbation strategies across six categories of informational uncertainty and three intensity levels. Evaluation of over 30 models uncovers systematic failure patterns: refusal comprises separable detection and categorization skills, and neither scale nor extended reasoning improves performance. We find that selective refusal is a trainable, alignment-sensitive capability, offering a clear path for improvement. We release two benchmarks -- RefusalBench-NQ (single document) and RefusalBench-GaRAGe (multi-document) -- and our complete generation framework to enable continued, dynamic evaluation of this critical capability.
- Abstract(参考訳): RAGシステムにおける言語モデルが、欠陥のあるコンテキストに基づいて答えることを選択的に拒否する能力は、安全性にとって重要であるが、重大な障害点である。
我々の大規模な研究は、フロンティアモデルでさえもこの環境では苦労し、マルチドキュメントタスクでは拒否精度が50%以下に低下し、危険な過信または過度に注意を払っていることを示している。
モデルがデータセット固有のアーティファクトを利用してテストインスタンスを記憶するため、静的ベンチマークはこの機能を確実に評価することができない。
本稿では,言語摂動制御による診断検査をプログラム的に作成する生成手法であるRefusalBenchを紹介する。
本フレームワークでは,6つの情報不確実性と3つの強度レベルにまたがる176個の摂動戦略を採用している。
拒絶は分離可能な検出と分類のスキルを含み、スケールも拡張された推論もパフォーマンスを向上させる。
選択的拒絶はトレーニング可能で、アライメントに敏感な能力であり、改善のための明確な道を提供する。
RefusalBench-NQ(単一ドキュメント)とRefusalBench-GaRAGe(複数ドキュメント)という2つのベンチマークと、この重要な能力の継続的な動的評価を可能にする完全な生成フレームワークをリリースしています。
関連論文リスト
- The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs [3.9977256267361754]
そこで本研究では,日本人児童のライドルから構築した費用効果評価指標であるNazonazoについて紹介する。
GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
論文 参考訳(メタデータ) (2025-09-18T07:50:04Z) - ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal [27.26251627767238]
大規模言語モデル(LLM)は、過度に保守的な安全対策のため、誤って良心的なクエリーを拒否する過度な拒絶を示す。
本稿では,LLMオーバーリフレクションの系統的検出と解析を行うための,最初の進化的テストフレームワークORFuzzを紹介する。
論文 参考訳(メタデータ) (2025-08-15T05:03:26Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction [10.428174043080622]
大規模言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。
本稿では,標準テストの限界に対処する評価フレームワークであるSWiMを提案する。
また,この効果を緩和する,単純かつ効果的なトレーニングフリーアプローチであるメドイド投票を提案する。
論文 参考訳(メタデータ) (2024-07-04T05:46:20Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - PAGER: A Framework for Failure Analysis of Deep Regression Models [27.80057763697904]
PAGER (Principled Analysis of Generalization Errors in Regressors) は,深部回帰器の故障を系統的に検出し,特徴付けるフレームワークである。
深層モデルにおけるアンカードトレーニングの原理に基づいて、PAGERは、エピステマ性不確実性と相補的多様体の非整合スコアを統一し、サンプルを異なるリスクレジームに正確に整理する。
論文 参考訳(メタデータ) (2023-09-20T00:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。