論文の概要: Post-Selection Confidence Bounds for Prediction Performance
- arxiv url: http://arxiv.org/abs/2210.13206v2
- Date: Thu, 27 Oct 2022 11:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:11:23.014892
- Title: Post-Selection Confidence Bounds for Prediction Performance
- Title(参考訳): 予測性能のための選択後の信頼境界
- Authors: Pascal Rink and Werner Brannath
- Abstract要約: 機械学習では、潜在的に多くの競合モデルから有望なモデルを選択し、その一般化性能を評価することが重要な課題である。
本稿では,評価セットの予測性能に基づいて選択された複数のモデルに対して,有効な低信頼境界を求めるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In machine learning, the selection of a promising model from a potentially
large number of competing models and the assessment of its generalization
performance are critical tasks that need careful consideration. Typically,
model selection and evaluation are strictly separated endeavors, splitting the
sample at hand into a training, validation, and evaluation set, and only
compute a single confidence interval for the prediction performance of the
final selected model. We however propose an algorithm how to compute valid
lower confidence bounds for multiple models that have been selected based on
their prediction performances in the evaluation set by interpreting the
selection problem as a simultaneous inference problem. We use bootstrap tilting
and a maxT-type multiplicity correction. The approach is universally applicable
for any combination of prediction models, any model selection strategy, and any
prediction performance measure that accepts weights. We conducted various
simulation experiments which show that our proposed approach yields lower
confidence bounds that are at least comparably good as bounds from standard
approaches, and that reliably reach the nominal coverage probability. In
addition, especially when sample size is small, our proposed approach yields
better performing prediction models than the default selection of only one
model for evaluation does.
- Abstract(参考訳): 機械学習では、潜在的に多くの競合モデルからの有望なモデルの選択と、その一般化性能の評価が、慎重に考慮する必要がある重要なタスクである。
通常、モデル選択と評価は厳密に分離された作業であり、サンプルをトレーニング、検証、評価セットに分割し、最終選択モデルの予測性能に対する単一の信頼区間のみを算出する。
そこで本研究では,選択問題を同時推論問題として解釈し,その予測性能に基づいて選択した複数のモデルに対する信頼度率の有効値を計算するアルゴリズムを提案する。
ブートストラップ傾きと最大T型多重度補正を用いる。
このアプローチは、予測モデル、任意のモデル選択戦略、および重みを受け入れる予測性能尺度の組み合わせに普遍的に適用できる。
提案手法は, 従来の手法に比べて信頼度が低く, 信頼性が低く, 公称範囲の確率に確実に到達できることを示すため, 様々なシミュレーション実験を行った。
さらに, サンプルサイズが小さい場合, 提案手法は, 評価対象とする1つのモデルのみの既定選択よりも優れた予測モデルが得られる。
関連論文リスト
- Awareness of uncertainty in classification using a multivariate model and multi-views [1.3048920509133808]
提案モデルでは,不確かさ予測を正規化し,予測と不確かさ推定の両方を計算する訓練を行う。
複数ビュー予測と不確かさと信頼度を考慮し、最終的な予測を計算する方法をいくつか提案した。
提案手法はクリーンでノイズの多いラベル付きCIFAR-10データセットを用いて検証した。
論文 参考訳(メタデータ) (2024-04-16T06:40:51Z) - Multi-View Conformal Learning for Heterogeneous Sensor Fusion [0.12086712057375555]
異種センサ融合のためのマルチビュー・シングルビューコンフォメーションモデルの構築と試験を行った。
我々のモデルは、共形予測フレームワークに基づいているため、理論的な限界信頼保証を提供する。
また,複数ビューモデルが単一ビューモデルに比べて不確実性の低い予測セットを生成することを示した。
論文 参考訳(メタデータ) (2024-02-19T17:30:09Z) - Deep Neural Network Benchmarks for Selective Classification [29.603706870245816]
複数の選択的な分類フレームワークが存在し、その多くはディープニューラルネットワークアーキテクチャに依存している。
提案手法は,選択誤差率,経験的カバレッジ,拒否されたインスタンスのクラス分布,アウト・オブ・ディストリビューション・インスタンスの性能など,いくつかの基準を用いて評価する。
論文 参考訳(メタデータ) (2024-01-23T12:15:47Z) - Predictive Multiplicity in Probabilistic Classification [25.111463701666864]
確率的分類における予測的乗数性を測定するための枠組みを提案する。
実世界のタスクにおける予測多重度の発生頻度と頻度を実証する。
その結果,予測多重度をより広範囲に報告する必要性が強調された。
論文 参考訳(メタデータ) (2022-06-02T16:25:29Z) - Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。
まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。
各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文 参考訳(メタデータ) (2022-03-21T10:20:21Z) - MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。
最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。
モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:55:11Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - On Statistical Efficiency in Learning [37.08000833961712]
モデルフィッティングとモデル複雑性のバランスをとるためのモデル選択の課題に対処する。
モデルの複雑さを順次拡大し、選択安定性を高め、コストを削減するオンラインアルゴリズムを提案します。
実験の結果, 提案手法は予測能力が高く, 計算コストが比較的低いことがわかった。
論文 参考訳(メタデータ) (2020-12-24T16:08:29Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Efficient Ensemble Model Generation for Uncertainty Estimation with
Bayesian Approximation in Segmentation [74.06904875527556]
アンサンブルセグメンテーションモデルを構築するための汎用的で効率的なセグメンテーションフレームワークを提案する。
提案手法では,層選択法を用いて効率よくアンサンブルモデルを生成することができる。
また,新たな画素単位の不確実性損失を考案し,予測性能を向上する。
論文 参考訳(メタデータ) (2020-05-21T16:08:38Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。