Fugu-MT 論文翻訳(概要): The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

論文の概要: The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

arxiv url: http://arxiv.org/abs/2603.09985v1
Date: Thu, 12 Feb 2026 08:58:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-15 16:38:22.525902
Title: The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration
Title（参考訳）: 大規模言語モデルにおけるダンニング・クルーガー効果:信頼度校正の実証的研究
Authors: Sudipta Ghosh, Mrityunjoy Panday,
Abstract要約: 大規模言語モデル(LLM)は様々なタスクにまたがる顕著な能力を示してきたが、彼らの自信を正確に評価する能力はいまだによく分かっていない。本研究では,LLMがDunning-Kruger効果を連想させるパターンを示すかどうかを実証的に検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across diverse tasks, yet their ability to accurately assess their own confidence remains poorly understood. We present an empirical study investigating whether LLMs exhibit patterns reminiscent of the Dunning-Kruger effect -- a cognitive bias where individuals with limited competence tend to overestimate their abilities. We evaluate four state-of-the-art models (Claude Haiku 4.5, Gemini 2.5 Pro, Gemini 2.5 Flash, and Kimi K2) across four benchmark datasets totaling 24,000 experimental trials. Our results reveal striking calibration differences: Kimi K2 exhibits severe overconfidence with an Expected Calibration Error (ECE) of 0.726 despite only 23.3% accuracy, while Claude Haiku 4.5 achieves the best calibration (ECE = 0.122) with 75.4% accuracy. These findings demonstrate that poorly performing models display markedly higher overconfidence -- a pattern analogous to the Dunning-Kruger effect in human cognition. We discuss implications for safe deployment of LLMs in high-stakes applications.
Abstract（参考訳）: 大規模言語モデル(LLM)は様々なタスクにまたがる顕著な能力を示してきたが、彼らの自信を正確に評価する能力はいまだによく分かっていない。本研究では,LLMがDunning-Kruger効果を連想させるパターンを示すかどうかを実証的に検討する。我々は4つのベンチマークデータセット(Claude Haiku 4.5, Gemini 2.5 Pro, Gemini 2.5 Flash, Kimi K2)を合計24,000の実験実験で評価した。 K2は、23.3%の精度にもかかわらず、期待された校正誤差(ECE)が0.726であり、Claude Haiku 4.5は75.4%の精度で最高の校正(ECE = 0.122)を達成している。これらの結果は、人間の認知におけるDunning-Kruger効果に類似したパターンである、非常に高い自信を示す性能の悪いモデルが示されていることを示している。我々は,LLMの安全な配置が高スループットアプリケーションにもたらす影響について論じる。

関連論文リスト

Decomposing LLM Self-Correction: The Accuracy-Correction Paradox and Error Depth Hypothesis [6.901585308625979]
自己補正を3つのサブ機能に分解する。本研究は,モデル能力と自己改善に関する線形仮定に挑戦する。
論文参考訳（メタデータ） (2025-12-24T21:51:24Z)
Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning [32.32593439144886]
振舞い校正された強化学習により、小さなモデルは不確実な定量化においてフロンティアモデルを超えることができる。当社のモデルでは,GPT-5の0.207を超える精度向上率(0.806)を挑戦的なドメイン内評価において達成している。
論文参考訳（メタデータ） (2025-12-22T22:51:48Z)
Do Large Language Models Know What They Don't Know? Kalshibench: A New Benchmark for Evaluating Epistemic Calibration via Prediction Markets [0.0]
十分に校正されたモデルは、実際の正確さと一致した信頼を表現するべきです -- 80%の信頼性を主張する場合には、80%の時間を正すべきです。我々はCFTCが規制する取引所であるKalshiから300の予測市場質問のベンチマークであるtextbfKalshiBenchを紹介した。我々は、Claude Opus 4.5, GPT-5.2, DeepSeek-V3.2, Qwen3-235B, Kimi-K2 の5つのフロンティアモデルを評価し、全モデルにまたがるテキストの過信を求める。
論文参考訳（メタデータ） (2025-12-17T23:23:06Z)
Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文参考訳（メタデータ） (2025-11-21T13:01:28Z)
Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels [72.3670919950349]
大規模言語モデル(LLM)は、事前訓練中にかなりの世界の知識を得る。教師付き微調整(SFT)のようなポストトレーニング技術はこの知識変化の振る舞いを形作る。 LLaMA-2 と LLaMA-3 の 5 つの LLM を対象としたクローズドブック質問応答 (CBQA) の性能評価を行った。
論文参考訳（メタデータ） (2025-09-20T09:40:32Z)
ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。 LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文参考訳（メタデータ） (2025-08-26T09:25:32Z)
Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。 9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文参考訳（メタデータ） (2025-02-16T07:46:09Z)
Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文参考訳（メタデータ） (2025-02-03T07:43:27Z)
Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文参考訳（メタデータ） (2024-11-20T14:15:18Z)
Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。 2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文参考訳（メタデータ） (2023-11-15T11:27:44Z)
Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文参考訳（メタデータ） (2023-05-24T10:12:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。