論文の概要: What Does Softmax Probability Tell Us about Classifiers Ranking Across Diverse Test Conditions?
- arxiv url: http://arxiv.org/abs/2406.09908v1
- Date: Fri, 14 Jun 2024 10:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 14:14:45.444789
- Title: What Does Softmax Probability Tell Us about Classifiers Ranking Across Diverse Test Conditions?
- Title(参考訳): 様々なテスト条件をランク付けする分類器について、ソフトマックス確率は何か?
- Authors: Weijie Tu, Weijian Deng, Liang Zheng, Tom Gedeon,
- Abstract要約: 我々はSoftmax correlation(SoftmaxCorr)と呼ばれる新しい尺度を導入する。
クラスクラス相関行列と予め定義された参照行列との間のコサイン類似性を計算する。
基準行列の予測と高い類似性は、モデルが自信と均一な予測をもたらすことを示唆する。
- 参考スコア(独自算出の注目度): 19.939014335673633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to develop a measure that can accurately rank the performance of various classifiers when they are tested on unlabeled data from out-of-distribution (OOD) distributions. We commence by demonstrating that conventional uncertainty metrics, notably the maximum Softmax prediction probability, possess inherent utility in forecasting model generalization across certain OOD contexts. Building on this insight, we introduce a new measure called Softmax Correlation (SoftmaxCorr). It calculates the cosine similarity between a class-class correlation matrix, constructed from Softmax output vectors across an unlabeled test dataset, and a predefined reference matrix that embodies ideal class correlations. A high resemblance of predictions to the reference matrix signals that the model delivers confident and uniform predictions across all categories, reflecting minimal uncertainty and confusion. Through rigorous evaluation across a suite of datasets, including ImageNet, CIFAR-10, and WILDS, we affirm the predictive validity of SoftmaxCorr in accurately forecasting model performance within both in-distribution (ID) and OOD settings. Furthermore, we discuss the limitations of our proposed measure and suggest avenues for future research.
- Abstract(参考訳): 本研究の目的は,アウト・オブ・ディストリビューション(OOD)分布からラベル付けされていないデータに対して,様々な分類器の性能を正確にランク付けできる尺度を開発することである。
我々は、従来の不確実性指標、特に最大ソフトマックス予測確率が、特定のOODコンテキストをまたいだ予測モデル一般化において固有の有用性を持つことを示すことから始める。
この知見に基づいて、Softmax correlation(SoftmaxCorr)と呼ばれる新しい尺度を導入する。
これは、未ラベルのテストデータセットにまたがるSoftmax出力ベクトルから構築されたクラスクラス相関行列と、理想的なクラス相関を具現化した事前定義された参照行列との間のコサイン類似性を計算する。
基準行列の予測と高い類似性は、モデルがすべてのカテゴリに自信と均一な予測を提供し、最小限の不確実性と混乱を反映していることを示している。
ImageNet, CIFAR-10, WILDSを含む一連のデータセットの厳密な評価を通じて, 分布内(ID)とOOD設定の両方でモデル性能を正確に予測する際のSoftmaxCorrの予測妥当性を確認した。
さらに,提案手法の限界について考察し,今後の研究への道筋を提案する。
関連論文リスト
- Improving Explainability of Softmax Classifiers Using a Prototype-Based Joint Embedding Method [0.0]
本稿では,ソフトマックス分類器の説明可能性向上のための試作手法を提案する。
モデルアーキテクチャの変更とトレーニングにより、予測に寄与する原型例のサンプル化が可能となる。
我々は、ソフトマックスの信頼性よりも分布データから検出できる不確実性の指標を得る。
論文 参考訳(メタデータ) (2024-07-02T13:59:09Z) - Awareness of uncertainty in classification using a multivariate model and multi-views [1.3048920509133808]
提案モデルでは,不確かさ予測を正規化し,予測と不確かさ推定の両方を計算する訓練を行う。
複数ビュー予測と不確かさと信頼度を考慮し、最終的な予測を計算する方法をいくつか提案した。
提案手法はクリーンでノイズの多いラベル付きCIFAR-10データセットを用いて検証した。
論文 参考訳(メタデータ) (2024-04-16T06:40:51Z) - Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias [5.698050337128548]
半教師付き学習において、自己学習はよく知られたアプローチである。モデルが自信を持ってラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。
ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過度に信頼されていることが知られている。
本稿では,線形分類器のアンサンブルの予測多様性に基づいて,$mathcalT$-similarityと呼ばれる新しい信頼度尺度を提案する。
論文 参考訳(メタデータ) (2023-10-23T11:30:06Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Simplex Clustering via sBeta with Applications to Online Adjustment of Black-Box Predictions [16.876111500144667]
我々はk-sBetasと呼ばれる新しい確率的クラスタリング手法を提案する。
クラスタリング分布の総括的最大アプリート(MAP)視点を提供する。
我々のコードと既存の単純なクラスタリング手法との比較および導入したソフトマックス予測ベンチマークが公開されている。
論文 参考訳(メタデータ) (2022-07-30T18:29:11Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。