論文の概要: Revisiting Calibration for Question Answering
- arxiv url: http://arxiv.org/abs/2205.12507v1
- Date: Wed, 25 May 2022 05:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 14:44:08.245682
- Title: Revisiting Calibration for Question Answering
- Title(参考訳): 質問応答の校正の見直し
- Authors: Chenglei Si, Chen Zhao, Sewon Min, Jordan Boyd-Graber
- Abstract要約: 従来のキャリブレーション評価はモデル信頼性の有用性を反映していないと論じる。
モデルが誤った予測に低信頼を割り当て、正しい予測に高信頼を割り当てているかどうかをよりよく把握する新しい校正基準であるMacroCEを提案する。
- 参考スコア(独自算出の注目度): 16.54743762235555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model calibration aims to adjust (calibrate) models' confidence so that they
match expected accuracy. We argue that the traditional evaluation of
calibration (expected calibration error; ECE) does not reflect usefulness of
the model confidence. For example, after conventional temperature scaling,
confidence scores become similar for all predictions, which makes it hard for
users to distinguish correct predictions from wrong ones, even though it
achieves low ECE. Building on those observations, we propose a new calibration
metric, MacroCE, that better captures whether the model assigns low confidence
to wrong predictions and high confidence to correct predictions. We examine
various conventional calibration methods including temperature scaling,
feature-based classifier, neural answer reranking, and label smoothing, all of
which do not bring significant gains under our new MacroCE metric. Towards more
effective calibration, we propose a new calibration method based on the model's
prediction consistency along the training trajectory. This new method, which we
name as consistency calibration, shows promise for better calibration.
- Abstract(参考訳): モデルのキャリブレーションは、予測された精度に合うようにモデルの信頼性を調整する(校正する)ことを目的としている。
従来のキャリブレーション評価(予測キャリブレーション誤差; ECE)はモデル信頼性の有用性を反映していない。
例えば、従来の温度スケーリングの後、信頼性スコアはすべての予測に類似するようになり、ECEが低いにもかかわらず、ユーザが間違った予測と正確な予測を区別することが難しくなる。
これらの観測に基づいて,モデルが誤った予測に対して低い信頼度と正しい予測に対する高い信頼を割り当てているかどうかをよりよく把握する新しいキャリブレーション指標であるマクロを提案する。
本研究では, 温度スケーリング, 特徴ベース分類器, ニューラル回答の再ランキング, ラベル平滑化などの従来のキャリブレーション手法について検討した。
より効果的な校正に向けて、トレーニング軌道に沿ったモデルの予測整合性に基づく新たな校正手法を提案する。
この新しい手法は一貫性校正(consistency calibration)と呼ばれ、より良い校正が期待できる。
関連論文リスト
- Feature Clipping for Uncertainty Calibration [24.465567005078135]
現代のディープニューラルネットワーク(DNN)は、しばしば過剰な自信に悩まされ、誤校正につながる。
この問題に対処するために,特徴クリッピング(FC)と呼ばれるポストホックキャリブレーション手法を提案する。
FCは特定の閾値に特徴値をクリップし、高い校正誤差サンプルのエントロピーを効果的に増加させる。
論文 参考訳(メタデータ) (2024-10-16T06:44:35Z) - A Confidence Interval for the $\ell_2$ Expected Calibration Error [35.88784957918326]
我々は信頼区間を$ell$ expected the Error (ECE) で開発する。
信頼性キャリブレーションの一般的な概念とキャリブレーションの両方を含む,トップ1からk$のキャリブレーションを考える。
ECEのデバイアスド推定器では、正規性を示すが、校正モデルとミスドモデルに対する収束率と分散は異なる。
論文 参考訳(メタデータ) (2024-08-16T20:00:08Z) - Optimizing Calibration by Gaining Aware of Prediction Correctness [30.619608580138802]
クロスエントロピー(CE)損失はキャリブレータトレーニングに広く使われており、基底真理クラスに対する信頼を高めるためにモデルを強制する。
本稿では, キャリブレーションの目的から得られた, ポストホックキャリブレーションの新たなキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T17:25:43Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Calibration of Neural Networks [77.34726150561087]
本稿では,ニューラルネットワークの文脈における信頼性校正問題について調査する。
我々は,問題文,キャリブレーション定義,評価に対する異なるアプローチについて分析する。
実験実験では、様々なデータセットとモデルをカバーし、異なる基準に従って校正方法を比較する。
論文 参考訳(メタデータ) (2023-03-19T20:27:51Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。
誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。
我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文 参考訳(メタデータ) (2022-03-03T16:58:54Z) - Parameterized Temperature Scaling for Boosting the Expressive Power in
Post-Hoc Uncertainty Calibration [57.568461777747515]
我々は新しいキャリブレーション手法であるパラメタライズド温度スケーリング(PTS)を導入する。
最新のポストホックキャリブレータの精度保持性能は、その本質的な表現力によって制限されることを実証します。
当社の新しい精度保存手法が,多数のモデルアーキテクチャやデータセット,メトリクスにおいて,既存のアルゴリズムを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2021-02-24T10:18:30Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Mitigating Bias in Calibration Error Estimation [28.46667300490605]
本研究では,ECE_binが真の校正誤差を体系的に過小評価または過大評価できることを示すシミュレーションフレームワークを提案する。
ECE_sweep は、ビンの数をできるだけ多く選択する簡単な代替校正誤差メトリックを提案します。
論文 参考訳(メタデータ) (2020-12-15T23:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。