Fugu-MT 論文翻訳(概要): Do LLMs Know What They Know? Measuring Metacognitive Efficiency with Signal Detection Theory

論文の概要: Do LLMs Know What They Know? Measuring Metacognitive Efficiency with Signal Detection Theory

arxiv url: http://arxiv.org/abs/2603.25112v1
Date: Thu, 26 Mar 2026 07:38:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-27 20:52:48.157235
Title: Do LLMs Know What They Know? Measuring Metacognitive Efficiency with Signal Detection Theory
Title（参考訳）: LLMは自分が知っていることを知っているか?信号検出理論によるメタ認知効率の測定
Authors: Jon-Paul Cacioli,
Abstract要約: メタキャリブレーションによるキャパシティを分解するタイプ2信号検出理論とメタ認知効率比M比に基づく評価フレームワークを提案する。 1) メタ認知効率は,(1) タイプ1の感度が類似している場合でも,モデル間で大きく異なる - Mistral は D が最も高いが M 比が低い; 2) メタ認知効率はドメイン固有であり,異なるモデルが最も弱い領域を示し,メトリクスを集約できない; である。メタキャリブレーションされた'フレームワークは、どのモデルが単に何を知らないのかを知る'のかを明らかにします。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Standard evaluation of LLM confidence relies on calibration metrics (ECE, Brier score) that conflate two distinct capacities: how much a model knows (Type-1 sensitivity) and how well it knows what it knows (Type-2 metacognitive sensitivity). We introduce an evaluation framework based on Type-2 Signal Detection Theory that decomposes these capacities using meta-d' and the metacognitive efficiency ratio M-ratio. Applied to four LLMs (Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.3, Llama-3-8B-Base, Gemma-2-9B-Instruct) across 224,000 factual QA trials, we find: (1) metacognitive efficiency varies substantially across models even when Type-1 sensitivity is similar -- Mistral achieves the highest d' but the lowest M-ratio; (2) metacognitive efficiency is domain-specific, with different models showing different weakest domains, invisible to aggregate metrics; (3) temperature manipulation shifts Type-2 criterion while meta-d' remains stable for two of four models, dissociating confidence policy from metacognitive capacity; (4) AUROC_2 and M-ratio produce fully inverted model rankings, demonstrating these metrics answer fundamentally different evaluation questions. The meta-d' framework reveals which models "know what they don't know" versus which merely appear well-calibrated due to criterion placement -- a distinction with direct implications for model selection, deployment, and human-AI collaboration. Pre-registered analysis; code and data publicly available.
Abstract（参考訳）: LLMの信頼性の標準的な評価は、キャリブレーション指標(ECE, Brier score)に依存しており、モデルがどれだけ知っているか(タイプ1感度)と、どれくらい知っているかを知っているか(タイプ2メタ認知感度)である。メタd'とメタ認知効率比M比を用いてこれらの容量を分解するタイプ2信号検出理論に基づく評価フレームワークを提案する。 LLM(Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.3, Llama-3-8B-Base, Gemma-2-9B-Instruct)を224,000件のQA試験に適用すると、(1)Type-1感度が類似している場合でも、メタ認知効率はモデルによって大きく変化することが判明した。メタd'フレームワークは、モデル選択、デプロイメント、人間とAIのコラボレーションに直接的な意味を持つ区別として、基準の配置によって、単にうまく校正されているモデルに対して、どのモデルが"知らないことを知っている"かを明らかにしている。事前登録された分析; コードとデータが公開されている。

関連論文リスト

Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models [28.300560850867374]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高める効果的なアプローチとして登場した。本稿では,メタ実験学習(Meta-Experience Learning, MEL)を提案する。 MELはベンチマークで一貫した改善を実現し、様々なモデルサイズで3.92%--4.73%のPass@1ゲインを得る。
論文参考訳（メタデータ） (2026-02-10T19:16:09Z)
Lie to Me: Knowledge Graphs for Robust Hallucination Self-Detection in LLMs [0.0]
本研究では,幻覚の自己検出を改善するため,構造化知識表現,すなわち知識グラフの利用について検討する。この結果から,LLMは知識グラフとして構造化された原子の事実をよりよく解析できることがわかった。この低コストでモデルに依存しないアプローチは、より安全で信頼性の高い言語モデルへの道を開く。
論文参考訳（メタデータ） (2025-12-29T15:41:13Z)
From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文参考訳（メタデータ） (2025-09-27T08:59:31Z)
Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文参考訳（メタデータ） (2025-05-20T21:12:58Z)
Hallucination Detection in Large Language Models with Metamorphic Relations [7.411154122932113]
大規模言語モデル(LLM)は幻覚を起こす傾向があり、例えば、その応答において事実的に誤った情報がある。メタQAは, メタモルフィック関係を利用した自己完結型幻覚検出手法である。我々は,MetaQAと最先端のゼロリソース幻覚検出手法であるSelfCheckGPTを比較し,複数のデータセットを比較した。
論文参考訳（メタデータ） (2025-02-20T19:44:33Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。 GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文参考訳（メタデータ） (2023-12-28T15:49:43Z)
MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down Distillation [153.56211546576978]
本研究では,ラベル生成器を用いて高い適合性を有するソフトターゲットを生成することを提案する。このラベルジェネレータを最適化するためにメタ学習技術を用いることができる。実験は CIFAR-100 と ILSVRC2012 の2つの標準分類ベンチマークで実施された。
論文参考訳（メタデータ） (2020-08-27T13:04:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。