論文の概要: Cross-validation Confidence Intervals for Test Error
- arxiv url: http://arxiv.org/abs/2007.12671v2
- Date: Sat, 31 Oct 2020 17:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:32:50.934742
- Title: Cross-validation Confidence Intervals for Test Error
- Title(参考訳): テストエラーに対するクロスバリデーション信頼区間
- Authors: Pierre Bayle, Alexandre Bayle, Lucas Janson, Lester Mackey
- Abstract要約: この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。
結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
- 参考スコア(独自算出の注目度): 83.67415139421448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work develops central limit theorems for cross-validation and consistent
estimators of its asymptotic variance under weak stability conditions on the
learning algorithm. Together, these results provide practical,
asymptotically-exact confidence intervals for $k$-fold test error and valid,
powerful hypothesis tests of whether one learning algorithm has smaller
$k$-fold test error than another. These results are also the first of their
kind for the popular choice of leave-one-out cross-validation. In our real-data
experiments with diverse learning algorithms, the resulting intervals and tests
outperform the most popular alternative methods from the literature.
- Abstract(参考訳): 本研究は,学習アルゴリズムにおける弱安定性条件下での非漸近分散の交叉評価と一貫した推定のための中心極限定理を考案する。
これらの結果は,1つの学習アルゴリズムが他の学習アルゴリズムよりも$k$foldテスト誤差が小さいかどうかを検証し,実効的かつ漸近的に実施される信頼区間を提供する。
これらの結果は、remove-one-out cross-validationの一般的な選択としては最初のものだ。
多様な学習アルゴリズムを用いた実データ実験では、結果の間隔とテストは文献の最も一般的な代替手法よりも優れています。
関連論文リスト
- Internal Incoherency Scores for Constraint-based Causal Discovery Algorithms [12.524536193679124]
仮説違反や有限サンプル誤りの検証が可能な内部コヒーレンシスコアを提案する。
シミュレーションおよび実世界のデータセットを用いて,PCアルゴリズムにおけるコヒーレンシースコアについて述べる。
論文 参考訳(メタデータ) (2025-02-20T16:44:54Z) - $t$-Testing the Waters: Empirically Validating Assumptions for Reliable A/B-Testing [3.988614978933934]
A/BテストはWeb上での実験的な設計の基礎であり、広範囲のアプリケーションとユースケースがある。
本稿では,$t$-testの仮定が満たされ,A/B-testが有効かどうかを検証するための実用的な手法を提案する。
これにより、$t$-testの仮定が満たされ、A/B-testが有効かどうかを経験的に評価する、効率的で効果的な方法が提供される。
論文 参考訳(メタデータ) (2025-02-07T09:55:24Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Efficient Discrepancy Testing for Learning with Distribution Shift [17.472049019016524]
局所的な一致距離をテストするための証明可能なアルゴリズムの最初のセットを提供する。
結果は、最近導入されたTestable Learning with Distribution Shiftモデルにおいて、新しい効率的な学習アルゴリズムの幅広いセットを示唆している。
論文 参考訳(メタデータ) (2024-06-13T17:51:10Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Probabilistic Diagnostic Tests for Degradation Problems in Supervised
Learning [0.0]
分類アルゴリズムにおけるクラス不均衡、重なり合い、小さな分散、ノイズラベル、スパース限界精度などの問題。
各問題の兆候と症状の同定に基づく確率診断モデルを示す。
いくつかの教師付きアルゴリズムの動作と性能は、トレーニングセットにそのような問題がある場合に研究される。
論文 参考訳(メタデータ) (2020-04-06T20:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。