論文の概要: Useful Confidence Measures: Beyond the Max Score
- arxiv url: http://arxiv.org/abs/2210.14070v1
- Date: Tue, 25 Oct 2022 14:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:23:06.025800
- Title: Useful Confidence Measures: Beyond the Max Score
- Title(参考訳): 便利な信頼対策:Max Scoreを超えて
- Authors: Gal Yona and Amir Feder and Itay Laish
- Abstract要約: 最大スコアを超える情報に依存するいくつかの信頼度尺度を導出します。
アウト・オブ・ディストリビューション・データに基づいてモデルを評価する場合,信頼度測定値の最大値のみを用いて,信頼度を推定する手法が極めて最適であることを示す。
- 参考スコア(独自算出の注目度): 9.189382034558657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important component in deploying machine learning (ML) in safety-critic
applications is having a reliable measure of confidence in the ML model's
predictions. For a classifier $f$ producing a probability vector $f(x)$ over
the candidate classes, the confidence is typically taken to be $\max_i f(x)_i$.
This approach is potentially limited, as it disregards the rest of the
probability vector. In this work, we derive several confidence measures that
depend on information beyond the maximum score, such as margin-based and
entropy-based measures, and empirically evaluate their usefulness, focusing on
NLP tasks with distribution shifts and Transformer-based models. We show that
when models are evaluated on the out-of-distribution data ``out of the box'',
using only the maximum score to inform the confidence measure is highly
suboptimal. In the post-processing regime (where the scores of $f$ can be
improved using additional in-distribution held-out data), this remains true,
albeit less significant. Overall, our results suggest that entropy-based
confidence is a surprisingly useful measure.
- Abstract(参考訳): 安全クリティカルなアプリケーションに機械学習(ML)をデプロイする上で重要なコンポーネントは、MLモデルの予測に対する信頼性の信頼性である。
候補クラス上の確率ベクトル $f(x)$ を生成する分類器 $f$ に対して、通常、信頼度は $\max_i f(x)_i$ となる。
このアプローチは確率ベクトルの残りの部分を無視するため、潜在的に制限される。
本研究では,最大スコアを超える情報に依存する複数の信頼度尺度,例えばマージンベースやエントロピーベースの尺度を導出し,その有用性を実証的に評価し,分散シフトを伴うNLPタスクとトランスフォーマーベースのモデルに着目した。
分布外データ ``out of the box'' でモデルを評価する場合、信頼度を知らせる最大スコアのみを用いることで、精度が極めて低いことを示す。
処理後のシステム(追加の振り分けデータを使って$f$のスコアを改善できる)では、これはそれほど重要ではないが、依然として真実である。
全体として、エントロピーに基づく信頼性は驚くほど有用な尺度である。
関連論文リスト
- Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Learning Confidence for Transformer-based Neural Machine Translation [38.679505127679846]
本稿では,ニューラルネットワーク翻訳(NMT)モデルのトレーニングと協調して,教師なしの信頼度推定学習を提案する。
我々は、NMTモデルが正しい予測を行うために必要なヒントの数として、信頼性を説明し、より多くのヒントは信頼性の低いことを示す。
学習された信頼度推定は文・単語レベルの品質評価タスクにおいて高い精度が得られることを示す。
論文 参考訳(メタデータ) (2022-03-22T01:51:58Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - MACEst: The reliable and trustworthy Model Agnostic Confidence Estimator [0.17188280334580192]
我々は、標準的な機械学習ポイント予測アルゴリズムに基づく信頼度推定は、基本的に欠陥があると主張している。
MACEstは信頼性と信頼性の高い信頼度推定を提供するモデル非依存信頼度推定器である。
論文 参考訳(メタデータ) (2021-09-02T14:34:06Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Certifying Confidence via Randomized Smoothing [151.67113334248464]
ランダムな平滑化は、高次元の分類問題に対して良好な証明されたロバスト性を保証することが示されている。
ほとんどの平滑化法は、下層の分類器が予測する信頼性に関する情報を与えてくれない。
そこで本研究では,スムーズな分類器の予測信頼度を評価するために,認証ラジイを生成する手法を提案する。
論文 参考訳(メタデータ) (2020-09-17T04:37:26Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Optimal Confidence Regions for the Multinomial Parameter [15.851891538566585]
厳密な信頼領域とインターバルの構築は、統計的推測と意思決定の中心である。
本稿では,カテゴリデータに対する最小平均体積信頼領域を示す新しい理論を開発する。
論文 参考訳(メタデータ) (2020-02-03T23:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。