論文の概要: The Metacognitive Probe: Five Behavioural Calibration Diagnostics for LLMs
- arxiv url: http://arxiv.org/abs/2605.09844v1
- Date: Mon, 11 May 2026 00:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.44759
- Title: The Metacognitive Probe: Five Behavioural Calibration Diagnostics for LLMs
- Title(参考訳): メタ認知プローブ : LLMの5つの行動校正診断
- Authors: Rafael C. T. Oliveira,
- Abstract要約: メタ認知プローブ(Metacognitive Probe)は、探索的な5タスク、15スロットの診断である。
LLMの信頼性動作を5つの行動特異的な次元に分解する。
N=69人に対して評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Metacognitive Probe is an exploratory five-task, 15-slot diagnostic that decomposes an LLM's confidence behaviour into five behaviourally-distinct dimensions: confidence calibration (T1-CC), epistemic vigilance (T2-EV), knowledge boundary (T3-KB), calibration range (T4-CR), and reasoning-chain validation (T5-RCV). It is evaluated on N=8 frontier models and N=69 humans. The instrument is motivated by Flavell (1979) and Nelson and Narens (1990) but operates on observable confidence-correctness alignment; it is not a validated cross-species metacognition scale, and the pre-specified human developmental hypothesis was falsified. Composite benchmarks (MMLU, BIG-Bench, HELM, GPQA) ask whether a model produces a correct response. They are silent on whether the model knows when its response is wrong. A model can score 80 on a composite calibration benchmark and still be wildly overconfident in narrow pockets the aggregate cannot surface. The Metacognitive Probe surfaces those pockets. Our headline is a 47-point within-model dissociation in Gemini 2.5 Flash: panel-best within-task calibration (T1-CC = 88; Spearman rho = +0.551, 95% CI [+0.14, +0.80], p = 0.005) and panel-worst cross-task difficulty prediction (T4-CR = 41; sigma_conf = 1.4 across twelve factoids).
- Abstract(参考訳): メタ認知プローブ(メタ認知プローブ、Metacognitive Probe)は、LLMの信頼性動作を5つの行動特異的な次元(T1-CC)、てんかん予防(T2-EV)、知識境界(T3-KB)、キャリブレーション範囲(T4-CR)、推論鎖検証(T5-RCV)に分解する探索的な5段階の診断である。
N=8フロンティアモデルとN=69ヒトで評価される。
この楽器はFlavell (1979)とNelson and Narens (1990)によって動機付けられているが、観測可能な信頼性・正確性アライメント(英語版)を運用している。
複合ベンチマーク(MMLU, BIG-Bench, HELM, GPQA)では、モデルが正しい応答を生成するかどうかを問う。
彼らは、モデルがその反応が間違っていることを知っているかどうかについて沈黙している。
モデルは、複合キャリブレーションベンチマークで80点を採点することができ、それでも、集合体が表面化できない狭いポケットにおいて、非常に過信される。
Metacognitive Probeは、これらのポケットをサーフェスする。
Gemini 2.5 Flash: panel-best within-task calibration (T1-CC = 88; Spearman rho = +0.551, 95% CI [+0.14, +0.80], p = 0.005) and panel-worst cross-task difficulty prediction (T4-CR = 41; sigma_conf = 1.4 across 12 factoids)。
関連論文リスト
- Before You Interpret the Profile: Validity Scaling for LLM Metacognitive Self-Report [0.0]
PAIとMMPI-3からメタ認知プローブデータに適用する。
6つの妥当性指標が運用されている: L(エラーに対する信頼を維持する)、K(エラーに賭ける)、F(コンセンサスに適合した項目を引き出す)、Fp(正しい回答を引き出す)、RBS(逆モニタリング)、TRIN。
論文 参考訳(メタデータ) (2026-04-20T01:42:54Z) - The Metacognitive Monitoring Battery: A Cross-Domain Benchmark for LLM Self-Monitoring [0.0]
本稿では,Nelson and Narens(1990)メタ認知フレームワークを基盤としたLLMにおけるモニタリング制御結合のドメイン間挙動測定を紹介する。
電池依存キャリブレーションは、単調低下(Q)、単調上昇(GPT-5.4)、平(Gemma)を含む。
発見は、独立なType-2 SDTアプローチと構造的に収束し、予備的なクロスメタルキャリブレーションを提供する。
論文 参考訳(メタデータ) (2026-04-17T05:15:15Z) - The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - Anchored Confabulation: Partial Evidence Non-Monotonically Amplifies Confident Hallucination in LLMs [0.0]
大型言語モデルの既知特性を同定する。
完全な証拠が取り除かれる前に、自信と怒りの度合いを増す。
パラメトリック幻覚信頼(Parametric Hallucination Confidence,PHC)としてコミットし、6行のエビデンスで確立する。
論文 参考訳(メタデータ) (2026-04-02T02:13:45Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。