論文の概要: Concurrent Criterion Validation of a Validity Screen for LLM Confidence Signals via Selective Prediction
- arxiv url: http://arxiv.org/abs/2604.17716v1
- Date: Mon, 20 Apr 2026 01:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.657262
- Title: Concurrent Criterion Validation of a Validity Screen for LLM Confidence Signals via Selective Prediction
- Title(参考訳): 選択予測によるLCM信頼信号の妥当性画面の同時基準検証
- Authors: Jon-Paul Cacioli,
- Abstract要約: 妥当性画面は、LDM信頼信号をValid、Indeterminate、Invalidに分類する。
認知的軌跡の524項目において,7家系の20のフロンティアLSMを評価した。
Split-halfクロスバリデーションは、中央値d = 1.77, P(d > 0) = 1.0を1000個の分割で生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The validity screen (Cacioli, 2026d, 2026e) classifies LLM confidence signals as Valid, Indeterminate, or Invalid. We test whether these classifications predict selective prediction performance. Twenty frontier LLMs from seven families were evaluated on 524 items across six cognitive tracks. Valid models show mean Type 2 AUROC = .624 (SD = .048). Invalid models show mean AUROC = .357 (SD = .231). Cohen's d = 2.81, p = .002. The tiers order monotonically: Invalid (.357) < Indeterminate (.554) < Valid (.624). Split-half cross-validation yields median d = 1.77, P(d > 0) = 1.0 across 1,000 splits. The three-tier classification accounts for 47% of the variance in AUROC. DeepSeek-R1 drops from 85.3% accuracy at full coverage to 11.3% at 10% coverage. The screen predicts the criterion. For selective prediction, the screen matters.
- Abstract(参考訳): 妥当性画面(Cacioli、2026d、2026e)は、LDM信頼信号をValid、Indeterminate、Invalidに分類する。
これらの分類が選択的予測性能を予測するかどうかを検証する。
認知的軌跡の524項目において,7家系の20のフロンティアLSMを評価した。
有効なモデルでは、AUROC = .624 (SD = .048) となる。
無効なモデルは平均 AUROC = .357 (SD = .231) を示す。
コーエンの d = 2.81, p = 002 である。
Invalid (.357) < Indeterminate (.554) < Valid (.624)。
Split-halfクロスバリデーションは、中央値d = 1.77, P(d > 0) = 1.0を1000個の分割で生成する。
3層分類はAUROCの47%である。
DeepSeek-R1は、全カバレッジで85.3%の精度から10%のカバレッジで11.3%に低下する。
画面は基準を予測します。
選択的な予測は、画面が重要だ。
関連論文リスト
- Before You Interpret the Profile: Validity Scaling for LLM Metacognitive Self-Report [0.0]
PAIとMMPI-3からメタ認知プローブデータに適用する。
6つの妥当性指標が運用されている: L(エラーに対する信頼を維持する)、K(エラーに賭ける)、F(コンセンサスに適合した項目を引き出す)、Fp(正しい回答を引き出す)、RBS(逆モニタリング)、TRIN。
論文 参考訳(メタデータ) (2026-04-20T01:42:54Z) - The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation [1.8345614451086532]
RLHF 対応言語モデルは TruthfulQA 上で応答均質化を示す。
40-79%の質問は、10のi.i.d.サンプルに対して単一のセマンティッククラスタを生成する。
論文 参考訳(メタデータ) (2026-03-25T09:35:15Z) - Measuring Faithfulness Depends on How You Measure: Classifier Sensitivity in LLM Chain-of-Thought Evaluation [0.0]
連鎖忠実性に関する最近の研究は、単一集合数について報告している。
本論文は、忠実性はモデルの客観的かつ測定可能な性質ではないことを示す。
論文 参考訳(メタデータ) (2026-03-20T17:48:43Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Predicting Overtakes in Trucks Using CAN Data [51.28632782308621]
CANデータからトラックの積載量の検出について検討する。
私たちの分析では、オーバーテイクイベントの最大10秒前をカバーしています。
我々は、オーバーテイク・トリガーに近づくと、オーバーテイク・クラスの予測スコアが増加する傾向にあることを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:58:22Z) - Selective Classification Can Magnify Disparities Across Groups [89.14499988774985]
選択的分類は平均的精度を向上させることができるが、既存の精度格差を同時に増大させることができる。
禁忌の増大は、一部のグループでのアキュラシーを減少させることもある。
我々は,グループ間で類似のフルカバレッジ精度を実現する分散ロバストモデルを訓練し,選択分類が各グループを均一に改善することを示す。
論文 参考訳(メタデータ) (2020-10-27T08:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。