論文の概要: Attention Head Entropy of LLMs Predicts Answer Correctness
- arxiv url: http://arxiv.org/abs/2602.13699v1
- Date: Sat, 14 Feb 2026 09:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.350738
- Title: Attention Head Entropy of LLMs Predicts Answer Correctness
- Title(参考訳): LLMの注意頭エントロピーは答えの正確性を予測する
- Authors: Sophie Ostmeier, Brian Axelrod, Maya Varma, Asad Aali, Yabin Zhang, Magdalini Paschali, Sanmi Koyejo, Curtis Langlotz, Akshay Chaudhari,
- Abstract要約: 本稿では,注目エントロピーパターンから回答の正しさを予測する手法であるヘッドエントロピーを紹介する。
質問・コンテキストのみに対する注意パターンが解答生成の前に既にヘッドエントロピーを用いた予測信号を持っていることを示す。
- 参考スコア(独自算出の注目度): 24.663410240505673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often generate plausible yet incorrect answers, posing risks in safety-critical settings such as medicine. Human evaluation is expensive, and LLM-as-judge approaches risk introducing hidden errors. Recent white-box methods detect contextual hallucinations using model internals, focusing on the localization of the attention mass, but two questions remain open: do these approaches extend to predicting answer correctness, and do they generalize out-of-domains? We introduce Head Entropy, a method that predicts answer correctness from attention entropy patterns, specifically measuring the spread of the attention mass. Using sparse logistic regression on per-head 2-Renyi entropies, Head Entropy matches or exceeds baselines in-distribution and generalizes substantially better on out-of-domains, it outperforms the closest baseline on average by +8.5% AUROC. We further show that attention patterns over the question/context alone, before answer generation, already carry predictive signal using Head Entropy with on average +17.7% AUROC over the closest baseline. We evaluate across 5 instruction-tuned LLMs and 3 QA datasets spanning general knowledge, multi-hop reasoning, and medicine.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば、医療のような安全クリティカルな環境においてリスクを生じさせるが、正しくない答えを生じさせる。
人間の評価は高価であり、LSM-as-judgeは隠れエラーを起こすリスクにアプローチする。
近年のホワイトボックス法は、注意質量の局所化に着目して、モデル内部を用いた文脈幻覚を検出するが、2つの疑問が残る:これらのアプローチは、回答の正しさを予測し、ドメイン外領域を一般化するか?
本稿では,注目エントロピーパターンから回答の正しさを予測する手法である頭部エントロピーについて紹介する。
2-Renyiエントロピーあたりの緩やかなロジスティック回帰を用いて、ヘッドエントロピーは分布のベースラインに一致するか、あるいは分布のベースラインを超過し、ドメイン外においてかなり良く一般化し、平均して8.5%のAUROCで最も近いベースラインを上回る。
さらに、質問/コンテキストのみに対する注意パターンは、回答生成の前に、平均+17.7% AUROC のヘッドエントロピーを用いた予測信号が最寄りのベースライン上で既に実行されていることを示す。
一般的な知識,マルチホップ推論,医学にまたがる5つの命令調整LDMと3つのQAデータセットを評価した。
関連論文リスト
- Predicting LLM Correctness in Prosthodontics Using Metadata and Hallucination Signals [4.680384065487852]
大規模言語モデル (LLM) は、医療や医学教育などの高度な領域で採用されている。
本研究では, 汎用モデル (GPT-4o) と推論中心モデル (OSS-120B) を多症例補綴学試験で解析し, 正当性予測の可能性を検討した。
以上の結果から, このメタデータベースのアプローチは, 解答の正解を前提として, 最大で+7.14%の精度向上と83.12%の精度向上を達成できることが示唆された。
論文 参考訳(メタデータ) (2025-12-27T07:51:50Z) - QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation [14.312693191309101]
Dynamic Retrieval-Augmented Generationは、大規模言語モデルにおける幻覚への生成時にいつ取得するかを適応的に決定する。
本稿では,主観的信頼度から事前学習データから客観的統計へ移行したQuCo-RAGを提案する。
提案手法は,(1) 生成前, 長い尾の知識ギャップを示す低周波の実体を同定し, (2) 生成中, 学習前コーパスにおけるエンティティ共起を検証し, ゼロ共起が幻覚のリスクを生じさせる。
論文 参考訳(メタデータ) (2025-12-22T08:28:05Z) - No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes [2.6550928535945872]
モデルの今後の回答が正しいかどうかを予測するために線形プローブを訓練する。
3つのオープンソースモデルファミリにわたって、一般的なトリビア問題に基づいて訓練されたこの「緊急時の正当性方向」の予測は、分布の成功を予測する。
I don't know"と応答するモデルでは、プローブのスコアと強く相関し、同じ方向が信頼を捉えることを示している。
論文 参考訳(メタデータ) (2025-09-12T18:09:55Z) - Exploiting LLMs for Automatic Hypothesis Assessment via a Logit-Based Calibrated Prior [8.58640746528909]
統計的な関係が多数あるので、どれが新しく、さらに探究する価値のあるものかを自動で評価できますか?
我々は,モデルの生の出力ロジットを,相関値上のキャリブレーションされた連続的な予測分布に変換する,ロジットに基づくキャリブレーション事前(Calibrated Prior)を提案する。
実世界の変数対2,096のベンチマークで事前評価を行い, 符号精度78.8%, 平均絶対誤差0.26, 95%信頼区間カバレッジ89.2%を達成した。
論文 参考訳(メタデータ) (2025-06-03T22:54:59Z) - Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs [129.79394562739705]
大型言語モデル(LLM)は、顕著な流布を示すが、しばしば「幻覚」として知られる致命的な誤りを引き起こす。
本稿では,非教師的アプローチであるRAUQ(Recurrent Attention-based Uncertainty Quantification)を提案する。
4つのLLMと12の質問応答、要約、翻訳タスクにわたる実験は、RAUQが優れた結果をもたらすことを示した。
論文 参考訳(メタデータ) (2025-05-26T14:28:37Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。