論文の概要: Disproving the Feasibility of Learned Confidence Calibration Under Binary Supervision: An Information-Theoretic Impossibility
- arxiv url: http://arxiv.org/abs/2509.14386v1
- Date: Wed, 17 Sep 2025 19:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.959098
- Title: Disproving the Feasibility of Learned Confidence Calibration Under Binary Supervision: An Information-Theoretic Impossibility
- Title(参考訳): 二元的監督下での学習信頼度校正の可能性 : 情報理論的不合理性
- Authors: Arjun S. Nair, Kristina P. Sinaga,
- Abstract要約: ニューラルネットワークは、正しい/不正確な監視を使用してトレーニングされた場合、有意義な多様性で適切に校正された信頼推定を同時に学習することはできない。
これは、方法論的な失敗ではなく、情報理論的な制約であることを示す。
本稿では,アンサンブル不一致と適応型マルチエージェント学習を用いた新しい指導パラダイムを提案する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We prove a fundamental impossibility theorem: neural networks cannot simultaneously learn well-calibrated confidence estimates with meaningful diversity when trained using binary correct/incorrect supervision. Through rigorous mathematical analysis and comprehensive empirical evaluation spanning negative reward training, symmetric loss functions, and post-hoc calibration methods, we demonstrate this is an information-theoretic constraint, not a methodological failure. Our experiments reveal universal failure patterns: negative rewards produce extreme underconfidence (ECE greater than 0.8) while destroying confidence diversity (std less than 0.05), symmetric losses fail to escape binary signal averaging, and post-hoc methods achieve calibration (ECE less than 0.02) only by compressing the confidence distribution. We formalize this as an underspecified mapping problem where binary signals cannot distinguish between different confidence levels for correct predictions: a 60 percent confident correct answer receives identical supervision to a 90 percent confident one. Crucially, our real-world validation shows 100 percent failure rate for all training methods across MNIST, Fashion-MNIST, and CIFAR-10, while post-hoc calibration's 33 percent success rate paradoxically confirms our theorem by achieving calibration through transformation rather than learning. This impossibility directly explains neural network hallucinations and establishes why post-hoc calibration is mathematically necessary, not merely convenient. We propose novel supervision paradigms using ensemble disagreement and adaptive multi-agent learning that could overcome these fundamental limitations without requiring human confidence annotations.
- Abstract(参考訳): ニューラルネットワークは、二項補正/不正監視を用いてトレーニングされた場合、有意義な多様性で、適切に校正された信頼推定を同時に学習することはできない。
厳密な数学的解析と、負の報酬訓練、対称損失関数、およびポストホック校正法にまたがる総合的な経験的評価を通じて、これは方法論的な失敗ではなく、情報理論的な制約であることを示した。
実験の結果, 負の報酬が極度の不信感(ECEが0.8以上)を生じ, 信頼性の多様性(0.05以下)を損なうこと, 対称的損失は2次信号平均化を逃れることに失敗すること, ポストホック法は信頼性分布を圧縮することのみで校正(ECEが0.02)を達成できることが確認された。
我々はこれを、バイナリ信号が正しい予測のために異なる信頼度を区別できない不特定マッピング問題として定式化し、60%の信頼度正解が90%の信頼度と同一の監督を受け取っている。
MNIST、Fashion-MNIST、CIFAR-10のすべてのトレーニングメソッドに対して、我々の実世界の検証では100%の失敗率を示していますが、ポストホック校正の33%の成功率は、学習よりも変換による校正を達成することで、パラドックス的に私たちの定理を裏付けています。
この不合理性は、ニューラルネットワークの幻覚を直接説明し、なぜポストホックキャリブレーションが数学的に必要であり、単に便利ではないのかを明確にする。
我々は,人間の信頼感のアノテーションを必要とせず,これらの基本的な制約を克服できる,アンサンブル不一致と適応型マルチエージェント学習を用いた新しい監視パラダイムを提案する。
関連論文リスト
- ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - CLUE: Neural Networks Calibration via Learning Uncertainty-Error alignment [7.702016079410588]
CLUE(Calibration via Learning Uncertainty-Error Alignment)は,学習中の予測不確かさを観測誤差と整合させる新しい手法である。
CLUEは,最先端のアプローチに対して,キャリブレーション品質と競争予測性能に優れることを示す。
論文 参考訳(メタデータ) (2025-05-28T19:23:47Z) - Enhance GNNs with Reliable Confidence Estimation via Adversarial Calibration Learning [30.450482094196243]
優れた予測性能にもかかわらず、GNNは信頼度が低いことがしばしばある。
この問題は、不正検出やリスクアセスメントといった高リスク領域における信頼性に関する懸念を提起する。
本稿では,異なるノード群間のキャリブレーションを適応的に強化する新しいAdvCaliフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-23T23:04:41Z) - Pretraining with random noise for uncertainty calibration [0.0]
多くのモデルは、誤った信頼のために幻覚(自信があるが不正確な反応)を示す。
発達神経科学にインスパイアされた本手法は,ランダムなノイズとラベルでネットワークを事前学習することでこの問題に対処する。
論文 参考訳(メタデータ) (2024-12-23T09:22:00Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Two Sides of Miscalibration: Identifying Over and Under-Confidence
Prediction for Network Calibration [1.192436948211501]
安全クリティカルなタスクにおける信頼性予測には、ディープニューラルネットワークの信頼性校正が不可欠である。
ミススキャリブレーションは、過信と/または過信をモデル化する。
校正点とクラス別校正点を同定するために,新しい校正点である校正点を導入する。
クラスワイドの誤校正スコアをプロキシとして使用して,過度かつ過度に対処可能な校正手法を設計する。
論文 参考訳(メタデータ) (2023-08-06T17:59:14Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z) - Adversarial Training with Rectified Rejection [114.83821848791206]
本稿では,信頼度(T-Con)を確実性オラクルとして利用し,信頼度を補正してT-Conを予測することを提案する。
軽度の条件下では、正当性(R-Con)拒絶器と信頼性(R-Con)拒絶器を結合して、不正に分類された入力と正しく分類された入力を区別できることを示す。
論文 参考訳(メタデータ) (2021-05-31T08:24:53Z) - Don't Just Blame Over-parametrization for Over-confidence: Theoretical
Analysis of Calibration in Binary Classification [58.03725169462616]
理論上は、過剰パラメトリゼーションは過剰信頼の唯一の理由ではない。
我々は、ロジスティック回帰は本質的に信頼過剰であり、実現可能で、非パラメータな設定であることを示す。
おそらく驚くことに、過剰な信頼が常にそうであるとは限らないことも示します。
論文 参考訳(メタデータ) (2021-02-15T21:38:09Z) - Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。
実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。
本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文 参考訳(メタデータ) (2020-01-29T00:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。