論文の概要: Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks
- arxiv url: http://arxiv.org/abs/2510.01782v1
- Date: Thu, 02 Oct 2025 08:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.052081
- Title: Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks
- Title(参考訳): LLMは知らない質問を拒否できるか? : 実作業における知識認識の拒絶を計測する
- Authors: Wenbo Pan, Jie Xu, Qiguang Chen, Junhao Dong, Libo Qin, Xinfeng Li, Haining Yu, Xiaohua Jia,
- Abstract要約: Refusal Index(RI)は、Large Language Models(LLM)が知らない質問をどれだけ正確に拒否するかを測定する、原則化された指標である。
16のモデルと5つのデータセットにわたる大規模な実験により、RIは実際のタスクにおいて、モデルの本質的な知識を意識した拒絶能力を正確に定量化できることを示した。
- 参考スコア(独自算出の注目度): 45.85816281779304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) should refuse to answer questions beyond their knowledge. This capability, which we term knowledge-aware refusal, is crucial for factual reliability. However, existing metrics fail to faithfully measure this ability. On the one hand, simple refusal-based metrics are biased by refusal rates and yield inconsistent scores when models exhibit different refusal tendencies. On the other hand, existing calibration metrics are proxy-based, capturing the performance of auxiliary calibration processes rather than the model's actual refusal behavior. In this work, we propose the Refusal Index (RI), a principled metric that measures how accurately LLMs refuse questions they do not know. We define RI as Spearman's rank correlation between refusal probability and error probability. To make RI practically measurable, we design a lightweight two-pass evaluation method that efficiently estimates RI from observed refusal rates across two standard evaluation runs. Extensive experiments across 16 models and 5 datasets demonstrate that RI accurately quantifies a model's intrinsic knowledge-aware refusal capability in factual tasks. Notably, RI remains stable across different refusal rates and provides consistent model rankings independent of a model's overall accuracy and refusal rates. More importantly, RI provides insight into an important but previously overlooked aspect of LLM factuality: while LLMs achieve high accuracy on factual tasks, their refusal behavior can be unreliable and fragile. This finding highlights the need to complement traditional accuracy metrics with the Refusal Index for comprehensive factuality evaluation.
- Abstract(参考訳): 大きな言語モデル(LLM)は、彼らの知識以上の質問に答えることを拒否しなければなりません。
知識を意識した拒絶というこの能力は、事実の信頼性に不可欠である。
しかし、既存のメトリクスはこの能力を忠実に測定することができない。
一方、単純な拒絶に基づくメトリクスは、拒絶率に偏りがあり、モデルが異なる拒絶傾向を示す場合、矛盾するスコアが得られる。
一方、既存のキャリブレーションメトリクスはプロキシベースであり、モデルの実際のリフレクション動作ではなく、補助キャリブレーションプロセスのパフォーマンスをキャプチャする。
本研究では,LLMが知らない質問をどの程度正確に拒否するかを測る原理的指標であるRefusal Index(RI)を提案する。
我々は、RIを、拒絶確率とエラー確率の間のスピアマンのランク相関として定義する。
RIを実用的に測定できるようにするために,2つの標準評価実行において観測された拒絶率からRIを効率的に推定する軽量な2パス評価手法を設計した。
16のモデルと5つのデータセットにわたる大規模な実験により、RIは実際のタスクにおいて、モデルの本質的な知識を意識した拒絶能力を正確に定量化できることを示した。
特に、RIは異なる拒絶率で安定であり、モデル全体の精度と拒絶率とは無関係に一貫したモデルランキングを提供する。
さらに重要なこととして、RIは、LLMの事実性の重要な、しかし以前は見落とされた側面についての洞察を提供する: LLMは、現実的なタスクにおいて高い精度を達成するが、その拒絶行動は信頼性が低く、脆弱である。
この発見は、包括的な事実性評価のために、従来の精度指標をRefusal Indexで補完する必要性を強調している。
関連論文リスト
- Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [14.76224690767612]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference [16.706959860667133]
大規模言語モデル(LLM)が厳密で信頼性の高い統計的因果推論を扱えるかどうかは不明である。
CausalPitfallsベンチマークは、信頼できる因果推論システムの開発を進めるための重要なガイダンスと定量的指標を提供する。
論文 参考訳(メタデータ) (2025-05-19T23:06:00Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。