論文の概要: What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models
- arxiv url: http://arxiv.org/abs/2605.02038v1
- Date: Sun, 03 May 2026 20:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.055056
- Title: What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models
- Title(参考訳): 単発精度に欠けていること:言語モデルの多変量信頼性監査
- Authors: Ranit Karmakar, Jayita Chatterjee,
- Abstract要約: シングルプロンプト精度は、言語モデルをベンチマークする主要な方法であるが、重要な信頼性障害を見逃す可能性がある。
15モデルオープンウェイトコーパスの評価を行い,5つの分類と推論ベンチマークによる10のインストラクトモデルに着目した信頼性解析を行った。
まず、評価設計は結論を根本的に変えることができる。
第2に、信頼信号は脆弱である。MMLU-Proでは、各プライマリモデルは、その精度と同一行上のトークン確率信頼の両方よりもかなり高い信頼度を言語的に報告し、単一のプロンプト変種における単一のモデルに対して、動詞のパースレートが崩壊する可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-prompt accuracy is the dominant way to benchmark language models, but it can miss reliability failures that matter. We evaluate a 15-model open-weight corpus, with the main reliability analyses focused on 10 instruct models across five classification and reasoning benchmarks under five prompt variants each, measuring accuracy, token-probability calibration, verbal-confidence calibration, verbal parse rate, and prompt-perturbation spread for every (model x dataset x variant) cell. We find three broad results. First, evaluation design can materially change the conclusion. Switching Expected Calibration Error (ECE) token from a raw to a label-set-normalised definition changes per-cell calibration by a mean absolute 0.149. More strikingly, pairing a chain-of-thought prompt with a first-character evaluator on ARC-Challenge reduces apparent accuracy by 72-88% across all five primary models; two independent repair procedures recover 93.8% and 102.7% of the lost performance, indicating an evaluator-side rather than model-side failure. Second, confidence signals are fragile. On MMLU-Pro, every primary model verbally reports confidence substantially above both its accuracy and its token-probability confidence on the same rows, and verbal parse rate can collapse for a single model on a single prompt variant. Third, prompt robustness does not track parameter count reliably. Across 10 instruct models, the correlation between model size and prompt-perturbation spread ranges from -0.244 to 0.474 across benchmarks. Taken together, these results show that reliability conclusions for small language models depend not only on the model being evaluated, but also on the evaluation pipeline used to measure it. We argue that calibration definitions, evaluator logic, verbal parseability, and prompt robustness should be reported explicitly when making reliability claims.
- Abstract(参考訳): シングルプロンプト精度は、言語モデルをベンチマークする主要な方法であるが、重要な信頼性障害を見逃す可能性がある。
提案する15モデルオープンウェイトコーパスは,5つの分類および推論ベンチマークを対象とし,評価精度,トークン確率キャリブレーション,動詞信頼度キャリブレーション,動詞パース率,および各セル(モデル x データセット x 変種)に対して,それぞれ10種類のインストラクトモデルに着目した信頼性解析を行った。
3つの大きな結果が得られます。
第一に、評価設計は結論を大幅に変えることができる。
期待校正誤り(ECE)トークンを生からラベルセット正規化定義に切り替えると、セルごとの校正は平均0.149で変化する。
さらに印象的なことに、ARC-Challenge上の最初の文字評価器とチェーン・オブ・シークレットのプロンプトを組み合わせることで、5つのプライマリモデル全てで明らかな精度が72-88%低下し、2つの独立した修復手順が93.8%と102.7%の損失を回復した。
第二に、信頼信号は脆弱である。
MMLU-Proでは、各一次モデルは、その精度と同一行上のトークン確率の信頼度を大きく上回る信頼度を言語的に報告し、単一のプロンプト変種における単一のモデルに対して、動詞のパースレートが崩壊する可能性がある。
第三に、素早い堅牢性はパラメータの数を確実に追跡しない。
10のモデルに対して、モデルサイズと急激な摂動拡散の相関はベンチマークで-0.244から0.474の範囲である。
これらの結果から,小型言語モデルに対する信頼性の結論は,評価対象モデルだけでなく,測定に用いる評価パイプラインにも依存することが示された。
信頼性の主張を行う際には、校正定義、評価者論理、動詞のパーセビリティ、即時堅牢性を明示的に報告すべきである。
関連論文リスト
- Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen [0.0]
実験では,7つの指導訓練付きオープンウェイトモデルを用いて,最小の妥当性基準を満たす言語的信頼度が得られるかどうかを検証した。
カテゴリー的誘因は有効性には至らなかった。
声道レベルの対数確率は,観察された分散状態下での言語的信頼度を有意に予測しなかった。
論文 参考訳(メタデータ) (2026-04-24T04:45:21Z) - MIRROR: A Hierarchical Benchmark for Metacognitive Calibration in Large Language Models [0.0]
MIRRORは、大規模言語モデルがより優れた意思決定に自己知識を使用できるかどうかを評価するベンチマークである。
約25万の評価インスタンスに対して,8つの実験室から16のモデルを評価した。
論文 参考訳(メタデータ) (2026-04-15T08:41:12Z) - Closing the Confidence-Faithfulness Gap in Large Language Models [3.122242683664973]
大規模言語モデルは、実際の精度から大きく切り離された信頼スコアを言語化する。
本稿では,言語的信頼度に関する機械論的解釈可能性分析について述べる。
本稿では,モデルの内部精度推定値を読み取る2段階適応型ステアリングパイプラインを導入する。
論文 参考訳(メタデータ) (2026-03-26T05:42:04Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Modeling and Predicting Multi-Turn Answer Instability in Large Language Models [5.136381688235197]
大規模言語モデル(LLM)は、ますます広範囲のアプリケーションで採用されている。
本稿では,モデルの応答変化を評価するために,単純なマルチターンフォローアッププロンプトを用いる。
単純な"Think again"プロンプトによって、Gemini 1.5 Flashが9ターンで約10%の精度が低下したことが分かりました。
論文 参考訳(メタデータ) (2025-11-12T01:48:23Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。