論文の概要: The Metacognitive Monitoring Battery: A Cross-Domain Benchmark for LLM Self-Monitoring
- arxiv url: http://arxiv.org/abs/2604.15702v1
- Date: Fri, 17 Apr 2026 05:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.742086
- Title: The Metacognitive Monitoring Battery: A Cross-Domain Benchmark for LLM Self-Monitoring
- Title(参考訳): メタ認知型モニタリングバッテリー: LLMセルフモニタリングのためのクロスドメインベンチマーク
- Authors: Jon-Paul Cacioli,
- Abstract要約: 本稿では,Nelson and Narens(1990)メタ認知フレームワークを基盤としたLLMにおけるモニタリング制御結合のドメイン間挙動測定を紹介する。
電池依存キャリブレーションは、単調低下(Q)、単調上昇(GPT-5.4)、平(Gemma)を含む。
発見は、独立なType-2 SDTアプローチと構造的に収束し、予備的なクロスメタルキャリブレーションを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a cross-domain behavioural assay of monitoring-control coupling in LLMs, grounded in the Nelson and Narens (1990) metacognitive framework and applying human psychometric methodology to LLM evaluation. The battery comprises 524 items across six cognitive domains (learning, metacognitive calibration, social cognition, attention, executive function, prospective regulation), each grounded in an established experimental paradigm. Tasks T1-T5 were pre-registered on OSF prior to data collection; T6 was added as an exploratory extension. After every forced-choice response, dual probes adapted from Koriat and Goldsmith (1996) ask the model to KEEP or WITHDRAW its answer and to BET or decline. The critical metric is the withdraw delta: the difference in withdrawal rate between incorrect and correct items. Applied to 20 frontier LLMs (10,480 evaluations), the battery discriminates three profiles consistent with the Nelson-Narens architecture: blanket confidence, blanket withdrawal, and selective sensitivity. Accuracy rank and metacognitive sensitivity rank are largely inverted. Retrospective monitoring and prospective regulation appear dissociable (r = .17, 95% CI wide given n=20; exemplar-based evidence is the primary support). Scaling on metacognitive calibration is architecture-dependent: monotonically decreasing (Qwen), monotonically increasing (GPT-5.4), or flat (Gemma). Behavioural findings converge structurally with an independent Type-2 SDT approach, providing preliminary cross-method construct validity. All items, data, and code: https://github.com/synthiumjp/metacognitive-monitoring-battery.
- Abstract(参考訳): 本稿では,Nelson and Narens(1990)メタ認知フレームワークを基盤としたLLMにおけるモニタリング・コントロール・カップリングのクロスドメインな動作測定を行い,人間の心理計測手法をLLM評価に適用する。
電池は6つの認知領域(学習、メタ認知的校正、社会的認知、注意、実行機能、予測制御)の524項目から構成され、それぞれが確立された実験パラダイムに基礎を置いている。
タスクT1-T5はデータ収集の前にOSFで事前登録され、T6は探索拡張として追加された。
1996年、Koriat と Goldsmith の双対プローブは、全ての強制選択応答の後、KEEP または WITHDRAW の解法と BET の減少をモデルに求める。
重要な指標は、不正確な項目と正しい項目の間の離脱率の差である、後退デルタである。
20基のフロンティア LLM (10,480 の評価) に適用されたバッテリーは、ネルソン=ナレンス建築と整合した3つのプロファイルを識別する: 毛布の信頼性、毛布の取り外し、選択感度。
精度ランクとメタ認知感度ランクは、大半が逆である。
振り返り監視と予測的規制は解離可能であるように見える(r = .17, 95% CI は n=20 で与えられる。
メタ認知的キャリブレーションのスケーリングはアーキテクチャに依存しており、単調な減少(Qwen)、単調な増加(GPT-5.4)、フラット(Gemma)である。
挙動解析は, 独立型2型SDT法と構造的に収束し, 予備的クロスメソッド構成の有効性が得られた。
すべての項目、データ、コード:https://github.com/synthiumjp/metacognitive-monitoring-battery。
関連論文リスト
- ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles [46.63622714488747]
共有事前学習データ、蒸留、アライメントパイプラインは、隠れた振る舞い依存、潜伏絡みを誘導することができる。
実際には、これは相関した推論パターンと同期された障害として現れます。
ブラックボックス言語モデル間の行動絡みを監査するための統計的枠組みを開発する。
論文 参考訳(メタデータ) (2026-04-08T23:32:06Z) - Do LLMs Know What They Know? Measuring Metacognitive Efficiency with Signal Detection Theory [0.0]
メタキャリブレーションによるキャパシティを分解するタイプ2信号検出理論とメタ認知効率比M比に基づく評価フレームワークを提案する。
1) メタ認知効率は,(1) タイプ1の感度が類似している場合でも,モデル間で大きく異なる - Mistral は D が最も高いが M 比が低い; 2) メタ認知効率はドメイン固有であり,異なるモデルが最も弱い領域を示し,メトリクスを集約できない; である。
メタキャリブレーションされた'フレームワークは、どのモデルが単に何を知らないのかを知る'のかを明らかにします。
論文 参考訳(メタデータ) (2026-03-26T07:38:28Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - The Chameleon Nature of LLMs: Quantifying Multi-Turn Stance Instability in Search-Enabled Language Models [1.4323566945483497]
本稿では,大規模言語モデルにおける「カメレオン行動」に関する最初の体系的研究について述べる。
我々は最先端のシステムに根本的な欠陥を露呈する。
情報源の再使用率と信頼性の相関は統計的に有意である。
論文 参考訳(メタデータ) (2025-10-19T04:51:14Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。