論文の概要: MIRROR: A Hierarchical Benchmark for Metacognitive Calibration in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.19809v1
- Date: Wed, 15 Apr 2026 08:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.547268
- Title: MIRROR: A Hierarchical Benchmark for Metacognitive Calibration in Large Language Models
- Title(参考訳): MIRROR:大規模言語モデルにおけるメタ認知キャリブレーションのための階層的ベンチマーク
- Authors: Jason Z Wang,
- Abstract要約: MIRRORは、大規模言語モデルがより優れた意思決定に自己知識を使用できるかどうかを評価するベンチマークである。
約25万の評価インスタンスに対して,8つの実験室から16のモデルを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MIRROR, a benchmark comprising eight experiments across four metacognitive levels that evaluates whether large language models can use self-knowledge to make better decisions. We evaluate 16 models from 8 labs across approximately 250,000 evaluation instances using five independent behavioral measurement channels. Core experiments are run across the full model roster; experiments with specialized infrastructure requirements report explicitly marked model subsets. We find two phenomena with direct implications for agentic deployment: (1) compositional self-prediction fails universally -- the Compositional Calibration Error ranges from 0.500 to 0.943 on the original 15-model Exp3-v1 set (and 0.434 to 0.758 on the balanced 16-model Exp3-v2 expansion), indicating that models cannot predict their own performance on multi-domain tasks, and (2) models exhibit above-chance but imperfect domain-specific self-knowledge yet systematically fail to translate even this partial awareness into appropriate agentic action-selection -- external metacognitive control reduces the Confident Failure Rate from 0.600 to 0.143 (76% reduction at temperature 0; mean 70% at temperature 0.7 across 5 models from 4 labs). Providing models with their own calibration scores produces no significant improvement (p > 0.05); only architectural constraint is effective. This suggests that external metacognitive scaffolding -- not improved self-knowledge -- is the path to safer autonomous AI systems. Code, data, and Croissant metadata will be released publicly with the benchmark.
- Abstract(参考訳): 4つのメタ認知レベルにまたがる8つの実験からなるベンチマークであるMIRRORを導入する。
我々は,5つの独立した行動計測チャンネルを用いて,約25万の評価事例を対象に,8つの実験室から16のモデルを評価する。
コア実験はモデルロースター全体にわたって実行される。特別なインフラストラクチャ要求による実験は、明らかにマークされたモデルサブセットを報告している。
1) 構成的自己予測が普遍的に失敗する -- 構成的校正誤差は、オリジナルの15モデルExp3-v1セットで0.500から0.943まで(およびバランスの取れた16モデルExp3-v2拡張で0.434から0.758まで)、モデルがマルチドメインタスクで自身のパフォーマンスを予測できないこと、(2) ドメイン固有の自己認識モデルが、この部分的認識を適切なエージェントアクション選択に変換できないこと。
コード、データ、Croissantメタデータは、ベンチマークで公開される。
関連論文リスト
- Open-Set Vein Biometric Recognition with Deep Metric Learning [0.0]
我々は厳密なオープンセット制約の下でDeep Metric Learning(DML)の計算境界を厳格に評価する。
提案手法は,非ネイティブなL2正規化埋め込みを学習し,類似性しきい値を用いたプロトタイプベースマッチングを採用する。
大規模MMCBNU 6000ベンチマークでは、我々の最良のモデル(ResNet50-CBAM)がOSCR 0.9945、AUROC 0.9974、EER 1.57%を達成し、高い識別精度 (99.6% Rank-1) を維持しながら、未知の被験者を頑健に拒否する。
論文 参考訳(メタデータ) (2026-04-16T11:03:11Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Brevity Constraints Reverse Performance Hierarchies in Language Models [0.0]
ベンチマーク問題の7.7%では、より大きな言語モデルは10-100倍のパラメータにもかかわらず、より小さな言語モデルよりも28.4ポイント低い。
我々は,このメカニズムを,過度な作業を通じてエラーを発生させる自発的なスケール依存的冗長性として認識する。
この結果から,大規模モデルの性能を最大化するには,スケールアウェア・プロンプト・エンジニアリングが必要であることが判明した。
論文 参考訳(メタデータ) (2026-03-11T06:47:41Z) - Decomposing LLM Self-Correction: The Accuracy-Correction Paradox and Error Depth Hypothesis [6.901585308625979]
自己補正を3つのサブ機能に分解する。
本研究は,モデル能力と自己改善に関する線形仮定に挑戦する。
論文 参考訳(メタデータ) (2025-12-24T21:51:24Z) - Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation [0.0]
本研究は16種類の教科モデルを対象とした4つの音読ツールについて検討した。
シングルパス法は、ベンチマークしたサブセットで優れた性能を保った。
主な発見は、数学的推論能力は、消音介入に対して最も敏感であることを示している。
論文 参考訳(メタデータ) (2025-12-15T18:48:42Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models [0.0]
AA-Omniscienceは6000の質問に対する事実的リコールと知識のキャリブレーションを測定するために設計されたベンチマークである。
モデルの評価は、事実のリコールを測定する有界メトリック(-100から100)であるOmniscience Indexを測定する。
その結果、フロンティアモデル全体の持続的な事実性とキャリブレーションの弱点が明らかになった。
論文 参考訳(メタデータ) (2025-11-17T06:27:16Z) - SpecEval: Evaluating Model Adherence to Behavior Specifications [63.13000010340958]
提供者仕様に対してモデルを監査する自動化フレームワークを導入します。
私たちの中心となる焦点は、プロバイダ仕様とモデルアウトプット、および審査員としての自身のモデルの間の3つの方法の整合性にあります。
当社のフレームワークは、100以上の行動ステートメントにわたる6人の開発者から16のモデルに適用し、プロバイダ間で最大20%のコンプライアンスギャップを含む、体系的な不整合を見つけました。
論文 参考訳(メタデータ) (2025-09-02T16:18:40Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。