論文の概要: Metacognitive Sensitivity for Test-Time Dynamic Model Selection
- arxiv url: http://arxiv.org/abs/2512.10451v1
- Date: Thu, 11 Dec 2025 09:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.299248
- Title: Metacognitive Sensitivity for Test-Time Dynamic Model Selection
- Title(参考訳): テスト時間動的モデル選択のためのメタ認知感度
- Authors: Le Tuan Minh Trinh, Le Minh Vu Pham, Thi Minh Anh Pham, An Duc Nguyen,
- Abstract要約: 我々は、AIメタ認知を評価し、活用するための新しいフレームワークを提案する。
メタ認知感度の心理学的評価尺度「メタd」を導入し,モデルの信頼度がモデルの精度を確実に予測できるかを特徴付ける。
次に、この動的感度スコアを、テスト時間モデル選択を行うバンドベースのアービタのコンテキストとして使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key aspect of human cognition is metacognition - the ability to assess one's own knowledge and judgment reliability. While deep learning models can express confidence in their predictions, they often suffer from poor calibration, a cognitive bias where expressed confidence does not reflect true competence. Do models truly know what they know? Drawing from human cognitive science, we propose a new framework for evaluating and leveraging AI metacognition. We introduce meta-d', a psychologically-grounded measure of metacognitive sensitivity, to characterise how reliably a model's confidence predicts its own accuracy. We then use this dynamic sensitivity score as context for a bandit-based arbiter that performs test-time model selection, learning which of several expert models to trust for a given task. Our experiments across multiple datasets and deep learning model combinations (including CNNs and VLMs) demonstrate that this metacognitive approach improves joint-inference accuracy over constituent models. This work provides a novel behavioural account of AI models, recasting ensemble selection as a problem of evaluating both short-term signals (confidence prediction scores) and medium-term traits (metacognitive sensitivity).
- Abstract(参考訳): 人間の認知の重要な側面はメタ認知(メタ認知)である。
ディープラーニングモデルは予測に自信を表わすことができるが、しばしばキャリブレーションの低さに悩まされる。
モデルは自分が知っていることを本当に知っているだろうか?
人間の認知科学を参考に,AIのメタ認知を評価・活用するための新しい枠組みを提案する。
メタ認知感度の心理学的評価尺度「メタd」を導入し,モデルの信頼度がモデルの精度を確実に予測できるかを特徴付ける。
次に、この動的感度スコアを、テストタイムモデル選択を実行するバンディットベースのアービターのコンテキストとして使用し、与えられたタスクに対して信頼すべき専門家モデルのどれを学ぶ。
複数のデータセットと深層学習モデルの組み合わせ(CNNとVLMを含む)にわたる実験により、このメタ認知アプローチが構成モデルよりも結合推論精度を向上させることが実証された。
この研究は、AIモデルの振る舞いに関する新しい説明を提供し、短期的な信号(信頼予測スコア)と中期的な特性(認知感度)の両方を評価する問題として、アンサンブル選択を再キャストする。
関連論文リスト
- BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - Know Thyself? On the Incapability and Implications of AI Self-Recognition [22.582593406983907]
自己認識は、心理的分析だけでなく、安全性にも関係する、AIシステムにとって重要なメタ認知能力である。
適用や更新が容易なシステム評価フレームワークを導入する。
10の現代的大規模言語モデル(LLM)が、他のモデルからのテキストに対して、それぞれの生成したテキストをどの程度正確に識別できるかを測定する。
論文 参考訳(メタデータ) (2025-10-03T18:00:01Z) - Uncertainty Estimation by Human Perception versus Neural Models [7.273936646577467]
現代のニューラルネットワーク(NN)はしばしば高い予測精度を達成するが、キャリブレーションが不十分である。
NNが推定した不確実性と人間の不確実性について検討する。
論文 参考訳(メタデータ) (2025-06-18T20:00:20Z) - Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。
質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。
これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文 参考訳(メタデータ) (2025-06-03T14:44:48Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Conceptual Belief-Informed Reinforcement Learning [10.817700298999]
強化学習(RL)は大きな成功を収めたが、非効率性や不安定性によって妨げられている。
ヒューマンインテリジェンス(HI-RL)をエミュレートする概念的信念インフォームド強化学習を導入する。
HI-RLは、重要な環境情報の高レベルなカテゴリを抽出して概念を形成し、価値や政策更新を導くための経験として適応的な概念関連確率的信念を構築する。
論文 参考訳(メタデータ) (2024-10-02T16:50:29Z) - Evaluating Subjective Cognitive Appraisals of Emotions from Large
Language Models [47.890846082224066]
この研究は、24の評価次元を評価する最も包括的なデータセットであるCovidET-Appraisalsを提示することでギャップを埋める。
CovidET-Appraisalsは、認知的評価を自動的に評価し、説明するための大規模言語モデルの能力を評価するのに理想的なテストベッドを提供する。
論文 参考訳(メタデータ) (2023-10-22T19:12:17Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。