論文の概要: Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas
- arxiv url: http://arxiv.org/abs/2605.06673v1
- Date: Tue, 21 Apr 2026 12:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.666182
- Title: Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas
- Title(参考訳): フロンティアLSMにおけるドメインレベルのメタ認知モニタリング:33モデルアトラス
- Authors: Jon-Paul Cacioli,
- Abstract要約: 応用/専門的な知識は、最も簡単に監視できるベンチマークドメインでした。
形式的推論と自然科学は間違いなく最も難しいものだった。
Anthropic、Google-Gemini、Qwenでは、家族内プロファイルのクラスタリングが重要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aggregate metacognitive quality scores mask within-model variation across MMLU benchmark domains. We administered 1,500 MMLU items (250 per domain, under an a priori six-domain grouping) to 33 frontier LLMs from eight model families and computed Type-2 AUROC per model-domain cell using verbalized confidence (0-100). Total observations: 47,151. Every model with above-chance aggregate monitoring showed non-trivial domain-level variation. Applied/Professional knowledge was reliably the easiest benchmark domain to monitor (mean AUROC = .742, ranked top-2 in 21 of 33 models); Formal Reasoning and Natural Science were reliably the hardest (one of the two ranked bottom-2 in 27 of 33 models). The three middle domains were statistically indistinguishable (Kendall's W = .164). A subject-level coherence analysis (within-domain similarity ratio = 0.95) confirms the six-domain grouping is a pragmatic benchmark taxonomy, not a validated latent construct. Within-family profile-shape clustering is significant for Anthropic, Google-Gemini, and Qwen (permutation p < .0001) but not DeepSeek, Google-Gemma, or OpenAI. Gemma 4 31B showed a +.202 AUROC improvement over Gemma 3 27B. Three models classified Invalid on binary KEEP/WITHDRAW probes produced normal profiles under verbalized confidence, confirming probe-format specificity. Bootstrap 95% CIs on 198 cells have median width .199. Split-half aggregate stability r = .893; profile-level split-half is weaker (grand median r = .184). These results show stable benchmark-domain variation obscured by aggregate metrics, and support benchmark-stage domain screening as a step before deployment in specific application areas.
- Abstract(参考訳): Aggregate Metacognitive Quality scores mask in-model variation across MMLU benchmark domain。
我々は8つのモデルファミリーから1500個のMMLUアイテム(ドメイン当たり250個,事前6ドメイングループ化)を33個のフロンティアLSMに投与し,言語的信頼度(0-100)を用いてモデルドメイン毎に2型AUROCを算出した。
総観測:47,151。
オーバーチャンス・アグリゲーション・モニタリングのすべてのモデルは、非自明なドメインレベルの変動を示した。
AUROC = .742、33モデル中21位)、形式推論と自然科学は確実に最も難しい(33モデル中27モデル中2つのうちの1つ)。
3つの中間領域は統計的に区別できない(ケンドールの W = .164)。
対象レベルのコヒーレンス分析(ドメイン間の類似度比 = 0.95)は、6つのドメインのグルーピングが実用的なベンチマーク分類であり、検証された潜在構造ではないことを確認した。
家庭内プロファイルのクラスタリングは、Arthropic、Google-Gemini、Qwen (permutation p < .0001) にとって重要であるが、DeepSeek、Google-Gemma、OpenAIはそうではない。
Gemma 4 31B は a +.202 を示した。
AUROCはGemma 3 27Bを改良した。
二つのKEEP/WITHDRAWプローブ上でのInvalidの分類は、言語的信頼の下で正常なプロファイルを生成し、プローブ・フォーマットの特異性を確認した。
198細胞上のブートストラップ95%CIは、中央値幅.199である。
スプリット・ハーフ集合安定性 r = 893; プロファイルレベルのスプリット・ハーフはより弱い(粒度中央値 r = .184)。
これらの結果から、ベンチマークドメインの安定な変動は、集約メトリクスによって隠蔽され、特定のアプリケーション領域に展開する前のステップとして、ベンチマークステージドメインのスクリーニングをサポートする。
関連論文リスト
- The Surprising Universality of LLM Outputs: A Real-Time Verification Primitive [0.0]
CPUのみのスコアリングプリミティブはトークン当たり2.6マイクロ秒で動作する。
トークンのランク周波数分布は同じ2パラメータのMandelbrotランキング分布に収束する。
利用可能な場合にモデルログの確率で構成し、クローズドAPIで使用可能なランクオンリーモードに分解するシングルパススコアリングプリミティブを導出する。
論文 参考訳(メタデータ) (2026-04-28T13:35:31Z) - Quantisation Reshapes the Metacognitive Geometry of Language Models [0.0]
我々は、Q5_K_Mとf16の精度で、同じ3000の質問に対してLlama-3-8B命令を評価する。
4つの知識領域にまたがるM比プロファイルは,形式間には関連性がないことがわかった。
論文 参考訳(メタデータ) (2026-04-10T05:29:22Z) - Granular Ball Guided Stable Latent Domain Discovery for Domain-General Crowd Counting [19.18297173252027]
そこで本研究では,一般群集カウントのためのグラニュラーボールガイド型安定潜時ドメイン探索フレームワークを提案する。
提案手法はまず, サンプルをコンパクトな局所粒状球体に分類し, 擬似ドメインを推論する代表として粒状球体をクラスタ化する。
検出された潜在ドメインの上に,伝達可能な意味表現を改善する2分岐学習フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-25T09:12:35Z) - ADNet: A Large-Scale and Extensible Multi-Domain Benchmark for Anomaly Detection Across 380 Real-World Categories [26.951550574484553]
異常検出のための大規模マルチドメインベンチマークであるADNetを紹介する。
ベンチマークには合計196,294枚のRGBイメージが含まれており、トレーニング用サンプルは116,192枚、テスト用イメージは80,102枚あり、そのうち60,311枚が異常である。
Dinomaly-mは、推論コストを増大させることなくデコーダ容量を拡大するコンテキスト誘導型Mixture-of-Expertsである。
論文 参考訳(メタデータ) (2025-11-25T10:47:48Z) - Identity-Link IRT for Label-Free LLM Evaluation: Preserving Additivity in TVD-MI Scores [3.959606869996232]
本報告では,TVD-MIの2次試行平均値が,非線形リンク関数を使わずに項目応答理論(IRT)に適合する付加的構造で中心確率スコアを得ることを示す。
Giniエントロピーからこのクリップ付き線形評価を導出し、境界飽和を扱うボックス制約最小二乗の定式化を導出する。
論文 参考訳(メタデータ) (2025-10-16T17:59:25Z) - Rethinking Reward Models for Multi-Domain Test-Time Scaling [91.76069784586149]
従来の作業では、プロセス報酬モデル(PRM)が最終回答のみを評価する結果報酬モデル(ORM)を上回っていると仮定しています。
14の異なる領域にまたがる4つの報酬モデル変種を統一的に評価する。
LLMの自動ラベル付けからラベルノイズを継承し,長い推論軌跡の評価に難渋するPRM方式の段階的スコアリングが原因と考えられる。
論文 参考訳(メタデータ) (2025-10-01T04:21:14Z) - Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。
私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。
実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:42:42Z) - Bidirectional Domain Mixup for Domain Adaptive Semantic Segmentation [73.3083304858763]
本稿では,ドメイン適応型セマンティックセグメンテーションタスクにおけるミックスアップの影響を系統的に研究する。
具体的には、ドメインミックスアップをカットとペーストという2ステップで実現します。
フレームワークの主なコンポーネントを実証的に検証するために、広範囲にわたるアブレーション実験を行います。
論文 参考訳(メタデータ) (2023-03-17T05:22:44Z) - Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - Low-confidence Samples Matter for Domain Adaptation [47.552605279925736]
ドメイン適応(DA)は、知識をラベルの豊富なソースドメインから関連するがラベルの少ないターゲットドメインに転送することを目的としている。
低信頼度サンプルの処理による新しいコントラスト学習法を提案する。
提案手法を教師なしと半教師付きの両方のDA設定で評価する。
論文 参考訳(メタデータ) (2022-02-06T15:45:45Z) - Ensemble of Averages: Improving Model Selection and Boosting Performance
in Domain Generalization [63.28279815753543]
ドメイン一般化(Domain Generalization, DG)設定では、特定のトレーニングドメインセットでトレーニングされたモデルが、シフトしたテストドメイン上でのカオスなパフォーマンスで悪名高い。
まず、モデルパラメータを最適化パスに沿って平均化する単純なプロトコルが、トレーニングの初期段階から始まって、ドメインの一般化性を大幅に向上させることを示す。
独立に訓練されたモデルのアンサンブルもまた、DG設定においてカオスな振る舞いを持つことを示す。
論文 参考訳(メタデータ) (2021-10-21T00:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。