論文の概要: No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes
- arxiv url: http://arxiv.org/abs/2509.10625v1
- Date: Fri, 12 Sep 2025 18:09:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.696548
- Title: No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes
- Title(参考訳): 答えは不要:質問専用線形プローブによるLCM答え精度の予測
- Authors: Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne, David Demitri Africa, Lorenzo Pacchiardi,
- Abstract要約: モデルの今後の回答が正しいかどうかを予測するために線形プローブを訓練する。
3つのオープンソースモデルファミリにわたって、一般的なトリビア問題に基づいて訓練されたこの「緊急時の正当性方向」の予測は、分布の成功を予測する。
I don't know"と応答するモデルでは、プローブのスコアと強く相関し、同じ方向が信頼を捉えることを示している。
- 参考スコア(独自算出の注目度): 2.6550928535945872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do large language models (LLMs) anticipate when they will answer correctly? To study this, we extract activations after a question is read but before any tokens are generated, and train linear probes to predict whether the model's forthcoming answer will be correct. Across three open-source model families ranging from 7 to 70 billion parameters, projections on this "in-advance correctness direction" trained on generic trivia questions predict success in distribution and on diverse out-of-distribution knowledge datasets, outperforming black-box baselines and verbalised predicted confidence. Predictive power saturates in intermediate layers, suggesting that self-assessment emerges mid-computation. Notably, generalisation falters on questions requiring mathematical reasoning. Moreover, for models responding "I don't know", doing so strongly correlates with the probe score, indicating that the same direction also captures confidence. By complementing previous results on truthfulness and other behaviours obtained with probes and sparse auto-encoders, our work contributes essential findings to elucidate LLM internals.
- Abstract(参考訳): 大きな言語モデル(LLM)は、正しい答えを期待していますか?
そこで本研究では,質問が読まれてからアクティベーションを抽出し,トークンが発生する前に線形プローブを訓練し,モデルが提案する回答が正しいかどうかを判断する。
7億から70億のパラメータからなる3つのオープンソースモデルファミリーにおいて、一般的なトリヴィア問題に基づいて訓練されたこの「適応的正当性方向」の予測は、分布の成功を予測し、分布外の多様な知識データセット、ブラックボックスベースラインを上回り、言語化された予測信頼度を予測する。
予測力は中間層で飽和し、自己評価が中間計算として現れることを示唆している。
特に、一般化は、数学的推論を必要とする質問に干渉する。
さらに、"I don't know"と応答するモデルでは、プローブスコアと強く相関し、同じ方向が信頼を捉えることを示す。
プローブやスパースオートエンコーダで得られた真理性やその他の行動に関する過去の結果を補完することにより,本研究はLLM内部の解明に不可欠な知見となる。
関連論文リスト
- Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths [12.377041655669728]
自己整合性に基づくLLM推論の予測モデルであるLachesisを紹介する。
我々は,最近提案されたLLMに基づく障害局所化手法であるAutoFLを用いて実験的に評価した。
結果は、Lachesisが解の正しさを最大0.8136の精度で予測できることを示唆している。
論文 参考訳(メタデータ) (2024-12-11T10:56:47Z) - Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,大規模言語モデルによって生成された複数の出力の自己整合性に基づいて,応答正当性を評価するための補助学習モデルを提案する。
提案手法は,複数応答間の一致を表現するために整合性グラフを構築し,グラフニューラルネットワーク(GNN)を用いて各応答の正しさを推定する。
論文 参考訳(メタデータ) (2024-11-03T20:36:44Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Eliciting Latent Knowledge from Quirky Language Models [1.8035046415192353]
潜在知識の排除は、世界の本当の状態を確実に追跡する能力のあるニューラルネットワークのアクティベーションのパターンを見つけることを目的としている。
12のデータセットと、質問に答える際の体系的なエラーを微調整した「奇抜な」言語モデル(LM)スイートを導入します。
特に中層では、線形プローブは通常、LMが出力するものとは無関係に、LMの知識を報告する。
論文 参考訳(メタデータ) (2023-12-02T05:47:22Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Language Models (Mostly) Know What They Know [10.836210010868932]
言語モデルが自身の主張の有効性を評価し,どの疑問に正しく答えられるかを予測する。
モデルが「P(IK)」を予測できるかどうか,質問に対する「私が知っている」確率を,特定の回答に言及せずに検討する。
論文 参考訳(メタデータ) (2022-07-11T22:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。