論文の概要: Constructing Confidence Intervals for 'the' Generalization Error -- a Comprehensive Benchmark Study
- arxiv url: http://arxiv.org/abs/2409.18836v2
- Date: Wed, 15 Jan 2025 10:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 19:30:38.531552
- Title: Constructing Confidence Intervals for 'the' Generalization Error -- a Comprehensive Benchmark Study
- Title(参考訳): The' Generalization Errorの信頼区間の構築 - 総合ベンチマークによる検討
- Authors: Hannah Schulz-Kümpel, Sebastian Fischer, Roman Hornung, Anne-Laure Boulesteix, Thomas Nagler, Bernd Bischl,
- Abstract要約: 機械学習では、一般化誤差に対する信頼区間(CI)が重要なツールである。
7種類のインデューサと合計8個の損失関数を用いて,合計19個の回帰および分類問題に対する13種類のCI手法の評価を行った。
一般化エラーのためのCI構築の方法論的基礎と固有の課題について概説し、統一されたフレームワークにおける13のメソッド全てを簡潔にレビューする。
- 参考スコア(独自算出の注目度): 7.094603504956301
- License:
- Abstract: When assessing the quality of prediction models in machine learning, confidence intervals (CIs) for the generalization error, which measures predictive performance, are a crucial tool. Luckily, there exist many methods for computing such CIs and new promising approaches are continuously being proposed. Typically, these methods combine various resampling procedures, most popular among them cross-validation and bootstrapping, with different variance estimation techniques. Unfortunately, however, there is currently no consensus on when any of these combinations may be most reliably employed and how they generally compare. In this work, we conduct a large-scale study comparing CIs for the generalization error, the first one of such size, where we empirically evaluate 13 different CI methods on a total of 19 tabular regression and classification problems, using seven different inducers and a total of eight loss functions. We give an overview of the methodological foundations and inherent challenges of constructing CIs for the generalization error and provide a concise review of all 13 methods in a unified framework. Finally, the CI methods are evaluated in terms of their relative coverage frequency, width, and runtime. Based on these findings, we can identify a subset of methods that we would recommend. We also publish the datasets as a benchmarking suite on OpenML and our code on GitHub to serve as a basis for further studies.
- Abstract(参考訳): 機械学習における予測モデルの品質を評価する際には、予測性能を測定する一般化誤差に対する信頼区間(CI)が重要である。
幸いにも、このようなCIの計算方法は数多く存在し、新しい有望なアプローチが継続的に提案されている。
一般的にこれらの手法は、クロスバリデーションとブートストレッピングでよく使われる様々な再サンプリング手順と、異なる分散推定手法を組み合わせたものである。
しかし残念なことに、これらの組み合わせがいつ最も確実に採用されるのか、どのように一般的に比較されるのかについては、現時点では合意が得られていない。
本研究では, 一般化誤差に対するCIの比較を大規模に実施し, 合計19個の表の回帰および分類問題に対して, 合計8個の損失関数と7個のインデューサを用いて13個の異なるCI手法を実験的に評価した。
一般化エラーのためのCI構築の方法論的基礎と固有の課題について概説し、統一されたフレームワークにおける13のメソッド全てを簡潔にレビューする。
最後に、CIメソッドは、相対カバレッジ頻度、幅、実行時間の観点から評価される。
これらの知見に基づいて、推奨するメソッドのサブセットを特定できる。
また、データセットをOpenMLのベンチマークスイートとして公開し、GitHubのコードを使ってさらなる研究の基盤を提供しています。
関連論文リスト
- POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Robust CATE Estimation Using Novel Ensemble Methods [0.8246494848934447]
臨床治験における条件平均治療効果(CATE)の評価は治療効果の不均一性の理解に不可欠である。
本研究は,多種多様なシナリオにまたがって,因果林や多種多様なメタラーナーなどの共通手法の性能を評価する。
予測安定性と性能を向上させるために,複数の推定器を統合する2つの新しいアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T07:23:02Z) - Evaluating machine learning models in non-standard settings: An overview
and new findings [7.834267158484847]
機械学習モデルの一般化誤差(GE)を推定することが基本である。
非標準設定、特に観測が独立で同一に分散していない場合、再サンプリングはGEの推定に偏りをもたらす可能性がある。
本稿では,これらの非標準設定において,GE推定のための厳格なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:15:11Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Assaying Out-Of-Distribution Generalization in Transfer Learning [103.57862972967273]
私たちは、経験的に対処するメッセージの相違を強調して、以前の作業の統一的なビューを取ります。
私たちは9つの異なるアーキテクチャから、多数の、あるいは少数の設定で31K以上のネットワークを微調整しました。
論文 参考訳(メタデータ) (2022-07-19T12:52:33Z) - Posterior and Computational Uncertainty in Gaussian Processes [52.26904059556759]
ガウスのプロセスはデータセットのサイズとともに違法にスケールする。
多くの近似法が開発されており、必然的に近似誤差を導入している。
この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。
本研究では,観測された有限個のデータと有限個の計算量の両方から生じる組合せ不確実性を一貫した推定を行う手法の開発を行う。
論文 参考訳(メタデータ) (2022-05-30T22:16:25Z) - TsmoBN: Interventional Generalization for Unseen Clients in Federated
Learning [23.519212374186232]
本研究では,分散学習パラダイムにおけるモデル一般化の課題を説明するために,学習構造因果モデル(SCM)を構築した。
FLモデルをテストクライアントに一般化するために,テスト固有および運動量追跡バッチ正規化(TsmoBN)を用いた簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T13:46:37Z) - A generalized framework for active learning reliability: survey and
benchmark [0.0]
本研究では,効果的な能動学習戦略を構築するためのモジュラーフレームワークを提案する。
信頼性ベンチマーク問題20の解決策として39の戦略を考案した。
論文 参考訳(メタデータ) (2021-06-03T09:33:59Z) - Re-Assessing the "Classify and Count" Quantification Method [88.60021378715636]
分類とカウント(CC)は、しばしば偏りのある推定器である。
以前の作業では、CCの適切に最適化されたバージョンを適切に使用できなかった。
最先端の手法に劣っているものの、ほぼ最先端の精度を実現している、と我々は主張する。
論文 参考訳(メタデータ) (2020-11-04T21:47:39Z) - An Empirical Evaluation on Robustness and Uncertainty of Regularization
Methods [43.25086015530892]
ディープニューラルネットワーク(DNN)は、人間と根本的に異なる振る舞いをする。
入力にぼやけなどの小さな汚職が適用されると、簡単に予測を変更できる。
彼らは分布外サンプル(不適切な不確実性尺度)に自信を持って予測する。
論文 参考訳(メタデータ) (2020-03-09T01:15:22Z) - A General Method for Robust Learning from Batches [56.59844655107251]
本稿では,バッチから頑健な学習を行う一般的なフレームワークについて考察し,連続ドメインを含む任意の領域に対する分類と分布推定の限界について考察する。
本手法は,一括分節分類,一括分節,単調,対数凹,ガウス混合分布推定のための,最初の頑健な計算効率の学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-02-25T18:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。