論文の概要: MEDLEY-BENCH: Scale Buys Evaluation but Not Control in AI Metacognition
- arxiv url: http://arxiv.org/abs/2604.16009v1
- Date: Fri, 17 Apr 2026 12:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.911245
- Title: MEDLEY-BENCH: Scale Buys Evaluation but Not Control in AI Metacognition
- Title(参考訳): MEDLEY-BENCH: AIメタ認知における評価は買うが制御しないスケール
- Authors: Farhad Abtahi, Abdolamir Karbalaie, Eduardo Illueca-Fernandez, Fernando Seoane,
- Abstract要約: メタ認知(メタ認知)は、自分自身の推論を監視し、規制する能力であり、AIベンチマークでは未評価のままである。
我々は,行動メタ認知のベンチマークであるMEDLEY-BENCHを紹介した。
- 参考スコア(独自算出の注目度): 37.95586695802894
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Metacognition, the ability to monitor and regulate one's own reasoning, remains under-evaluated in AI benchmarking. We introduce MEDLEY-BENCH, a benchmark of behavioural metacognition that separates independent reasoning, private self-revision, and socially influenced revision under genuine inter-model disagreement. The benchmark evaluates 35 models from 12 families on 130 ambiguous instances across five domains and reports two complementary scores: the Medley Metacognition Score (MMS), a tier-based aggregate of reflective updating, social robustness, and epistemic articulation, and the Medley Ability Score (MAS), derived from four metacognitive sub-abilities. Results show a robust evaluation/control dissociation: evaluation ability increases with model size within families, whereas control does not. In a follow-up progressive adversarial analysis of 11 models, we observed two behavioural profiles, i.e., models that revise primarily in response to argument quality and models that track consensus statistics. Under within-model relative profiling (ipsative scoring), evaluation was the weakest relative ability in all 35 models, indicating a systematic knowing/doing gap. Smaller and cheaper models often matched or outperformed larger counterparts, suggesting that metacognitive competence is not simply a function of scale. These findings position MEDLEY-BENCH as a tool for measuring belief revision under social pressure and suggest that future training should reward calibrated, proportional updating rather than output quality alone.
- Abstract(参考訳): メタ認知(メタ認知)は、自分自身の推論を監視し、規制する能力であり、AIベンチマークでは未評価のままである。
MEDLEY-BENCHは行動メタ認知のベンチマークで、独立した推論、私的自己修正、および真のモデル間不一致の下で社会的に影響されたリビジョンを分離する。
このベンチマークでは、5つのドメインにまたがる130の曖昧なインスタンスから12のファミリーから35のモデルを評価し、Medley Metacognition Score(MMS)と4つのメタ認知サブ能力から派生したMedley Ability Score(MAS)の2つの相補的なスコアを報告した。
評価能力は家族内のモデルサイズに比例して増大するが,コントロールには及ばない。
続く11モデルの漸進的逆解析では、主に議論品質に反応して修正されるモデルと、コンセンサス統計を追跡するモデルという2つの行動プロファイルが観察された。
モデル内相対プロファイリング(Ipsative score)では,35モデルすべてにおいて評価が最弱であり,体系的な知識/行動ギャップが示唆された。
より小型で安価なモデルはしばしばより大きなモデルと一致するか、あるいは性能が優れており、メタ認知能力は単にスケールの関数ではないことを示唆している。
これらの結果から,MEDLEY-BENCHは社会的圧力下での信念修正を評価するツールとして位置づけられ,将来のトレーニングは,出力品質のみではなく,校正的,比例的な更新に報いるべきだと示唆された。
関連論文リスト
- Do LLMs Know What They Know? Measuring Metacognitive Efficiency with Signal Detection Theory [0.0]
メタキャリブレーションによるキャパシティを分解するタイプ2信号検出理論とメタ認知効率比M比に基づく評価フレームワークを提案する。
1) メタ認知効率は,(1) タイプ1の感度が類似している場合でも,モデル間で大きく異なる - Mistral は D が最も高いが M 比が低い; 2) メタ認知効率はドメイン固有であり,異なるモデルが最も弱い領域を示し,メトリクスを集約できない; である。
メタキャリブレーションされた'フレームワークは、どのモデルが単に何を知らないのかを知る'のかを明らかにします。
論文 参考訳(メタデータ) (2026-03-26T07:38:28Z) - Simulated Self-Assessment in Large Language Models: A Psychometric Approach to AI Self-Efficacy [0.0]
我々は,10大言語モデル(LLM)の自己評価をシミュレートするために,10項目の総合自己効力尺度を適用した。
反応は、反復的な管理とランダム化されたアイテム注文の間で非常に安定していた。
モデルは条件によって異なる自己効力レベルを示し、スコアは人間の基準よりも低かった。
論文 参考訳(メタデータ) (2025-11-25T03:24:11Z) - mFARM: Towards Multi-Faceted Fairness Assessment based on HARMs in Clinical Decision Support [10.90604216960609]
大規模言語モデル(LLM)の高度な医療環境への展開は、AIアライメントの重要な課題である。
既存の公正性評価手法は、医療被害の多次元的な性質を無視する単純な指標を使用するため、これらの文脈では不十分である。
本稿では,hARMs(mFARM$)に基づく多面的公正度評価(マルチメトリック・フェアネス・アセスメント)を提案する。
提案した$mFARM$のメトリクスは、さまざまな設定下でより効果的に微妙なバイアスをキャプチャします。
論文 参考訳(メタデータ) (2025-09-02T06:47:57Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。