論文の概要: When Models Know When They Do Not Know: Calibration, Cascading, and Cleaning
- arxiv url: http://arxiv.org/abs/2601.07965v1
- Date: Mon, 12 Jan 2026 19:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.925869
- Title: When Models Know When They Do Not Know: Calibration, Cascading, and Cleaning
- Title(参考訳): モデルを知らないとき - キャリブレーション、カスケード、クリーニング
- Authors: Chenjie Hao, Weyl Lu, Yuko Ishiwaka, Zengyi Li, Weier Wan, Yubei Chen,
- Abstract要約: 有望なアプローチは、モデルの内部信号から計算された信頼を利用して、その無知を反映することである。
本稿では,視覚モデルと言語モデルの両方に適用可能な,シンプルで効果的で普遍的な訓練自由な手法を提案する。
我々の結果は、モデルが知らないときに認識できるようにすることが、より効率的で信頼性があり、信頼できるAIへの実践的なステップであることを示している。
- 参考スコア(独自算出の注目度): 10.585100830578934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When a model knows when it does not know, many possibilities emerge. The first question is how to enable a model to recognize that it does not know. A promising approach is to use confidence, computed from the model's internal signals, to reflect its ignorance. Prior work in specific domains has shown that calibration can provide reliable confidence estimates. In this work, we propose a simple, effective, and universal training-free method that applies to both vision and language models, performing model calibration, cascading, and data cleaning to better exploit a model's ability to recognize when it does not know. We first highlight two key empirical observations: higher confidence corresponds to higher accuracy within a single model, and models calibrated on the validation set remain calibrated on a held-out test set. These findings empirically establish the reliability and comparability of calibrated confidence. Building on this, we introduce two applications: (1) model cascading with calibrated advantage routing and (2) data cleaning based on model ensemble. Using the routing signal derived from the comparability of calibrated confidences, we cascade large and small models to improve efficiency with almost no compromise in accuracy, and we further cascade two models of comparable scale to achieve performance beyond either model alone. Leveraging multiple experts and their calibrated confidences, we design a simple yet effective data-cleaning method that balances precision and detection rate to identify mislabeled samples in ImageNet and Massive Multitask Language Understanding (MMLU) datasets. Our results demonstrate that enabling models to recognize when they do not know is a practical step toward more efficient, reliable, and trustworthy AI.
- Abstract(参考訳): モデルがいつそれを知らないかを知ると、多くの可能性が現れます。
最初の質問は、モデルが知らないことを認識できるようにする方法である。
有望なアプローチは、モデルの内部信号から計算された信頼を利用して、その無知を反映することである。
特定の領域における以前の研究は、キャリブレーションが信頼できる信頼推定を提供することを示した。
本研究では、視覚モデルと言語モデルの両方に適用し、モデルキャリブレーション、カスケード、データクリーニングを行い、モデルが知らないときの認識能力をよりよく活用する、シンプルで効果的で普遍的なトレーニングフリーな手法を提案する。
高い信頼性は単一のモデル内で高い精度に対応し、検証セットでキャリブレーションされたモデルは、保持されたテストセットでキャリブレーションされたままである。
これらの知見は, 校正された信頼性の信頼性と可視性を実証的に確立した。
そこで本研究では,(1)キャリブレーションによるモデルカスケードと(2)モデルアンサンブルに基づくデータクリーニングの2つの手法を提案する。
キャリブレーションされた信頼性の可視性から導かれるルーティング信号を用いて、大小のモデルをカスケードして、精度をほぼ損なうことなく効率を向上し、さらに比較可能なスケールの2つのモデルをカスケードして、どちらのモデルよりも性能を達成する。
複数の専門家とその信頼性を校正し、精度と検出率のバランスをとり、ImageNetとMassive Multitask Language Understanding (MMLU)データセットで誤ラベルされたサンプルを識別するシンプルなデータクリーニング手法を設計する。
我々の結果は、モデルが知らないときに認識できるようにすることが、より効率的で信頼性があり、信頼できるAIへの実践的なステップであることを示している。
関連論文リスト
- Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Calibrated Interpretation: Confidence Estimation in Semantic Parsing [37.28245521206576]
一般的な4つのセマンティックパーシングデータセットのキャリブレーションについて検討する。
キャリブレーションエラーに関連する要因を分析し、2つの解析データセットの信頼度に基づく新たな課題分割を公表する。
論文 参考訳(メタデータ) (2022-11-14T15:17:55Z) - Calibration Meets Explanation: A Simple and Effective Approach for Model
Confidence Estimates [21.017890579840145]
本稿では,モデル説明を活用するCMEという手法を提案し,非帰納的属性に対するモデルの信頼性を低下させる。
我々は,2つの人気のある事前学習言語モデルを用いて,6つのデータセットに関する広範な実験を行った。
以上の結果から,モデル説明が後部推定の校正に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-11-06T06:17:21Z) - Uncertainty-sensitive Activity Recognition: a Reliability Benchmark and
the CARING Models [37.60817779613977]
本稿では,現代の行動認識アーキテクチャの信頼度が,正しい結果の確率を反映していることを示す最初の研究を行う。
新たなキャリブレーションネットワークを通じて、モデル出力を現実的な信頼性推定に変換する新しいアプローチを紹介します。
論文 参考訳(メタデータ) (2021-01-02T15:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。