論文の概要: Measuring the metacognition of AI
- arxiv url: http://arxiv.org/abs/2603.29693v1
- Date: Tue, 31 Mar 2026 12:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.663687
- Title: Measuring the metacognition of AI
- Title(参考訳): AIのメタ認知を測定する
- Authors: Richard Servajean, Philippe Servajean,
- Abstract要約: 我々は、AIのメタ認知感度を評価するための金の標準として、メタd'フレームワークの採用を議論する。
本稿では,信号検出理論(SDT)を活用し,AIが自発的に決定を下す能力を測定することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A robust decision-making process must take into account uncertainty, especially when the choice involves inherent risks. Because artificial Intelligence (AI) systems are increasingly integrated into decision-making workflows, managing uncertainty relies more and more on the metacognitive capabilities of these systems; i.e, their ability to assess the reliability of and regulate their own decisions. Hence, it is crucial to employ robust methods to measure the metacognitive abilities of AI. This paper is primarily a methodological contribution arguing for the adoption of the meta-d' framework, or its model-free alternatives, as the gold standard for assessing the metacognitive sensitivity of AIs--the ability to generate confidence ratings that distinguish correct from incorrect responses. Moreover, we propose to leverage signal detection theory (SDT) to measure the ability of AIs to spontaneously regulate their decisions based on uncertainty and risk. To demonstrate the practical utility of these psychophysical frameworks, we conduct two series of experiments on three large language models (LLMs)--GPT-5, DeepSeek-V3.2-Exp, and Mistral-Medium-2508. In the first experiments, LLMs performed a primary judgment followed by a confidence rating. In the second, LLMs only performed the primary judgment, while we manipulated the risk associated with either response. On the one hand, applying the meta-d' framework allows us to conduct comparisons along three axes: comparing an LLM to optimality, comparing different LLMs on a given task, and comparing the same LLM across different tasks. On the other hand, SDT allows us to assess whether LLMs become more conservative when risks are high.
- Abstract(参考訳): 堅牢な意思決定プロセスは、特に選択に固有のリスクが伴う場合、不確実性を考慮する必要があります。
人工知能(AI)システムはますます意思決定ワークフローに統合されているため、不確実性の管理はこれらのシステムのメタ認知能力にますます依存している。
したがって、AIのメタ認知能力を測定するために堅牢な手法を採用することが不可欠である。
本稿では,AIのメタ認知感度を評価するためのゴールドスタンダードとして,メタdフレームワークやモデルフリーフレームワークの採用を論じる方法論的コントリビューションとして,不確かさとリスクに基づいてAIが自発的に決定を下す能力を計測するために,信号検出理論(SDT)を活用することを提案する。これらの心理学的フレームワークの実用性を実証するために,我々は,3つの大規模言語モデル(LLMs)-GPT-5,DeepSeek-V3.2-Exp,Mistral-Medium-2508の2つの実験を行った。
最初の実験では、LSMは第一判定を行い、次いで信頼性評価を行った。
第2に, LLMは一次判定のみを行い, いずれの反応にも関連するリスクを操作した。
一方,メタd' フレームワークを用いることで,LLM を最適性と比較し,与えられたタスクで異なる LLM を比較し,同じ LLM を異なるタスクで比較できる。
一方 SDT では,リスクが高い場合に LLM がより保守的になるかどうかを評価することができる。
関連論文リスト
- Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - Measuring and mitigating overreliance is necessary for building human-compatible AI [35.656767738427426]
オーバー信頼度の測定と緩和は、大規模言語モデルの研究と展開の中心でなければならない、と我々は主張する。
まず、リスクを個人レベルと社会的レベルの両方の過信から集約する。
我々は,AI研究コミュニティが人間の能力を損なうことなく,LLMの増強を図ることができる緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-09-08T16:15:07Z) - UProp: Investigating the Uncertainty Propagation of LLMs in Multi-Step Agentic Decision-Making [47.64013151246807]
大規模言語モデル(LLM)は、シーケンシャルな意思決定を含む安全クリティカルなアプリケーションに統合される。
既存のLLM Uncertainty Quantification (UQ) 法は、主にシングルターン質問応答形式のために設計されている。
LLMシーケンシャルな決定の不確かさを2つの部分に分解する原理的情報理論フレームワークを導入する。
論文 参考訳(メタデータ) (2025-06-20T18:34:04Z) - Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T14:50:44Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Do LLMs estimate uncertainty well in instruction-following? [9.081508933326644]
大規模言語モデル(LLM)は、ユーザ指示に従うことができるため、さまざまなドメインにわたるパーソナルAIエージェントとして価値のあるものになり得る。
命令追従の文脈におけるLCMの不確実性推定能力の最初の体系的評価について述べる。
以上の結果から,既存の不確実性手法は,特にモデルが後続の命令で微妙な誤りを犯した場合に困難であることがわかった。
論文 参考訳(メタデータ) (2024-10-18T16:32:10Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。
本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。
以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文 参考訳(メタデータ) (2024-06-10T02:14:19Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。