論文の概要: Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen
- arxiv url: http://arxiv.org/abs/2604.22215v1
- Date: Fri, 24 Apr 2026 04:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.340468
- Title: Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen
- Title(参考訳): オープンウェイト指導型3-9B LLMにおける言語信頼度飽和--事前登録された心理指標妥当性画面
- Authors: Jon-Paul Cacioli,
- Abstract要約: 実験では,7つの指導訓練付きオープンウェイトモデルを用いて,最小の妥当性基準を満たす言語的信頼度が得られるかどうかを検証した。
カテゴリー的誘因は有効性には至らなかった。
声道レベルの対数確率は,観察された分散状態下での言語的信頼度を有意に予測しなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verbal confidence elicitation is widely used to extract uncertainty estimates from LLMs. We tested whether seven instruction-tuned open-weight models (3-9B parameters, four families) produce verbalised confidence that meets minimal validity criteria for item-level Type-2 discrimination under minimal numeric elicitation with greedy decoding. In a pre-registered study (OSF: osf.io/azbvx), 524 TriviaQA items were administered under numeric (0-100) and categorical (10-class) elicitation to eight models at Q5_K_M quantisation on consumer hardware, yielding 8,384 deterministic trials. A psychometric validity screen was applied to each model-format cell. All seven instruct models were classified Invalid on numeric confidence (H2 confirmed, 7/7 vs. predicted >=4/7), with a mean ceiling rate of 91.7% (H1 confirmed). Categorical elicitation did not rescue validity. Instead, it disrupted task performance in six of seven models, producing accuracy below 5% (H4 not confirmed). Token-level logprobability did not usefully predict verbalised confidence under the observed variance regime (H5 confirmed, mean cross-validated R^2 < 0.01). Within the reasoning-distilled model, reasoning-trace length showed a strong negative partial correlation with confidence (rho = -0.36, p < .001), consistent with the Reasoning Contamination Effect. These results do not imply that internal uncertainty representations are absent. They show that minimal verbal elicitation fails to preserve internal signals at the output interface in this model-size regime. Psychometric screening should precede any downstream use of such signals.
- Abstract(参考訳): LLMから不確実性推定を抽出するために、言語的信頼度推論が広く用いられている。
その結果,7つの命令調整されたオープンウェイトモデル(3-9Bパラメータ,4ファミリー)が,グリーディ復号による最小数値推論の下で,項目レベルのType-2識別の最小の妥当性基準を満たす言語的信頼度が得られるかどうかを検証した。
登録前調査 (OSF: osf.io/azbvx) では、524のTriviaQA項目を数値 (0-100) とカテゴリー (10-class) で, 消費者ハードウェア上でのQ5_K_M量子化において8つのモデルに導入し, 8,384の判定試験を行った。
各モデルフォーマット細胞に心理測定妥当性画面を適用した。
7つのインストラクトモデルは全て数値信頼度(H2は7/7対予測>=4/7)で分類され、平均天井率は91.7%(H1は確認)であった。
カテゴリー的勧誘は有効性を助けなかった。
代わりに、7つのモデルのうち6つのタスク性能を破壊し、精度は5%以下になった(H4は確認されていない)。
声道レベルの対数確率は,観察された分散状態下での言語的信頼度を有意に予測しなかった (H5, 平均交叉価R^2 < 0.01)。
推理-蒸留モデルでは, 推理-トレース長は信頼性 (rho = -0.36, p < .001) と強い負の偏相関を示した。
これらの結果は、内部の不確実性表現が欠如していることを意味するものではない。
これらの結果から、最小限の動詞の活用は、このモデルサイズの状態において、出力インターフェースにおける内部信号の保存に失敗することが示された。
心理的スクリーニングは、そのような信号の下流での使用に先んじるべきである。
関連論文リスト
- Before You Interpret the Profile: Validity Scaling for LLM Metacognitive Self-Report [0.0]
PAIとMMPI-3からメタ認知プローブデータに適用する。
6つの妥当性指標が運用されている: L(エラーに対する信頼を維持する)、K(エラーに賭ける)、F(コンセンサスに適合した項目を引き出す)、Fp(正しい回答を引き出す)、RBS(逆モニタリング)、TRIN。
論文 参考訳(メタデータ) (2026-04-20T01:42:54Z) - The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - Multi-Axis Trust Modeling for Interpretable Account Hijacking Detection [1.0152838128195467]
本稿では,ハディスにインスパイアされたマルチ軸信頼モデリングフレームワークを提案する。
我々は,5つの信頼軸 – 長期的整合性(アダラ),行動精度(ダブト),文脈連続性(アイソナド),累積的評価,異常証拠 – を,ユーザアカウントに対して意味論的に意味のある行動特徴からなる26のコンパクトなセットに翻訳する。
CLUE-LDSクラウドアクティビティデータセットのフレームワークを,インジェクトされたアカウントハイジャックシナリオを用いて評価した。
論文 参考訳(メタデータ) (2026-02-20T19:36:30Z) - The Devil in the Details: Emergent Misalignment, Format and Coherence in Open-Weights LLMs [0.0]
次世代オープンウェイトモデルがQwen-2.5ファミリーに類似した耐性を示すかどうかを評価する。
9つの現代的なオープンウェイトモデルにまたがって効果を再現する。
論文 参考訳(メタデータ) (2025-11-25T09:25:33Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Causal Understanding by LLMs: The Role of Uncertainty [43.87879175532034]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。
因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (2025-09-24T13:06:35Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。