Fugu-MT 論文翻訳(概要): Cross-validation Confidence Intervals for Test Error

論文の概要: Cross-validation Confidence Intervals for Test Error

arxiv url: http://arxiv.org/abs/2007.12671v2
Date: Sat, 31 Oct 2020 17:24:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 06:32:50.934742
Title: Cross-validation Confidence Intervals for Test Error
Title（参考訳）: テストエラーに対するクロスバリデーション信頼区間
Authors: Pierre Bayle, Alexandre Bayle, Lucas Janson, Lester Mackey
Abstract要約: この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
参考スコア（独自算出の注目度）: 83.67415139421448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work develops central limit theorems for cross-validation and consistent estimators of its asymptotic variance under weak stability conditions on the learning algorithm. Together, these results provide practical, asymptotically-exact confidence intervals for $k$-fold test error and valid, powerful hypothesis tests of whether one learning algorithm has smaller $k$-fold test error than another. These results are also the first of their kind for the popular choice of leave-one-out cross-validation. In our real-data experiments with diverse learning algorithms, the resulting intervals and tests outperform the most popular alternative methods from the literature.
Abstract（参考訳）: 本研究は,学習アルゴリズムにおける弱安定性条件下での非漸近分散の交叉評価と一貫した推定のための中心極限定理を考案する。これらの結果は,1つの学習アルゴリズムが他の学習アルゴリズムよりも$k$foldテスト誤差が小さいかどうかを検証し,実効的かつ漸近的に実施される信頼区間を提供する。これらの結果は、remove-one-out cross-validationの一般的な選択としては最初のものだ。多様な学習アルゴリズムを用いた実データ実験では、結果の間隔とテストは文献の最も一般的な代替手法よりも優れています。

関連論文リスト

The Relative Instability of Model Comparison with Cross-validation [65.90853456199493]
クロスバリデーションは、安定した機械学習アルゴリズムのテストエラーに対する信頼区間を提供するために使用できる。相対安定性は、単純なアルゴリズムであっても、既存の安定性の結果から容易に導き出すことはできない。ソフトスレッディングまたはラッソを用いた場合、試験誤差差に対するCV信頼区間の無効性を実証的に確認する。
論文参考訳（メタデータ） (2025-08-06T12:54:56Z)
Irredundant k-Fold Cross-Validation [0.0]
従来のk-foldクロスバリデーションでは、各インスタンスはトレーニングに1回(K! Irredundant $k$-fold cross-validationは、各インスタンスがトレーニングに1回、テストに1回正確に使用されることを保証する新しい方法です。
論文参考訳（メタデータ） (2025-07-26T19:59:37Z)
Internal Incoherency Scores for Constraint-based Causal Discovery Algorithms [12.524536193679124]
仮説違反や有限サンプル誤りの検証が可能な内部コヒーレンシスコアを提案する。シミュレーションおよび実世界のデータセットを用いて,PCアルゴリズムにおけるコヒーレンシースコアについて述べる。
論文参考訳（メタデータ） (2025-02-20T16:44:54Z)
$t$-Testing the Waters: Empirically Validating Assumptions for Reliable A/B-Testing [3.988614978933934]
A/BテストはWeb上での実験的な設計の基礎であり、広範囲のアプリケーションとユースケースがある。本稿では,$t$-testの仮定が満たされ,A/B-testが有効かどうかを検証するための実用的な手法を提案する。これにより、$t$-testの仮定が満たされ、A/B-testが有効かどうかを経験的に評価する、効率的で効果的な方法が提供される。
論文参考訳（メタデータ） (2025-02-07T09:55:24Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Efficient Discrepancy Testing for Learning with Distribution Shift [17.472049019016524]
局所的な一致距離をテストするための証明可能なアルゴリズムの最初のセットを提供する。結果は、最近導入されたTestable Learning with Distribution Shiftモデルにおいて、新しい効率的な学習アルゴリズムの幅広いセットを示唆している。
論文参考訳（メタデータ） (2024-06-13T17:51:10Z)
Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文参考訳（メタデータ） (2023-11-01T04:41:16Z)
Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文参考訳（メタデータ） (2022-12-29T18:37:08Z)
MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文参考訳（メタデータ） (2022-09-26T12:04:49Z)
Model-agnostic out-of-distribution detection using combined statistical tests [15.27980070479021]
本稿では,学習された生成モデルを用いた分布外検出のための簡易な手法を提案する。古典的パラメトリックテスト(ラオのスコアテスト)と最近導入された定性テストを組み合わせる。その単純さと汎用性にもかかわらず、これらの手法はモデル固有のアウト・オブ・ディストリビューション検出アルゴリズムと競合することがある。
論文参考訳（メタデータ） (2022-03-02T13:32:09Z)
CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文参考訳（メタデータ） (2020-10-22T12:39:11Z)
Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文参考訳（メタデータ） (2020-06-22T21:12:31Z)
Probabilistic Diagnostic Tests for Degradation Problems in Supervised Learning [0.0]
分類アルゴリズムにおけるクラス不均衡、重なり合い、小さな分散、ノイズラベル、スパース限界精度などの問題。各問題の兆候と症状の同定に基づく確率診断モデルを示す。いくつかの教師付きアルゴリズムの動作と性能は、トレーニングセットにそのような問題がある場合に研究される。
論文参考訳（メタデータ） (2020-04-06T20:32:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。