論文の概要: Training and Testing with Multiple Splits: A Central Limit Theorem for Split-Sample Estimators
- arxiv url: http://arxiv.org/abs/2511.04957v1
- Date: Fri, 07 Nov 2025 03:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.665159
- Title: Training and Testing with Multiple Splits: A Central Limit Theorem for Split-Sample Estimators
- Title(参考訳): 複数のスプリットを用いたトレーニングとテスト:スプリットサンプル推定のための中心極限理論
- Authors: Bruno Fava,
- Abstract要約: 私は、複数の分割を平均して、トレーニングにより多くのデータを使用し、テストにサンプル全体を使用し、改善する推論アプローチを開発しています。
通常の近似に基づく信頼区間は,多くのアプリケーションにおいて有効であるが,2つのモデル間での性能を比較するなど,重要な事例が発見できる可能性がある。
ランダム化実験における貧困の予測と不均一な治療効果の学習という,開発と公共経済の2つの重要な問題に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As predictive algorithms grow in popularity, using the same dataset to both train and test a new model has become routine across research, policy, and industry. Sample-splitting attains valid inference on model properties by using separate subsamples to estimate the model and to evaluate it. However, this approach has two drawbacks, since each task uses only part of the data, and different splits can lead to widely different estimates. Averaging across multiple splits, I develop an inference approach that uses more data for training, uses the entire sample for testing, and improves reproducibility. I address the statistical dependence from reusing observations across splits by proving a new central limit theorem for a large class of split-sample estimators under arguably mild and general conditions. Importantly, I make no restrictions on model complexity or convergence rates. I show that confidence intervals based on the normal approximation are valid for many applications, but may undercover in important cases of interest, such as comparing the performance between two models. I develop a new inference approach for such cases, explicitly accounting for the dependence across splits. Moreover, I provide a measure of reproducibility for p-values obtained from split-sample estimators. Finally, I apply my results to two important problems in development and public economics: predicting poverty and learning heterogeneous treatment effects in randomized experiments. I show that my inference approach with repeated cross-fitting achieves better power than previous alternatives, often enough to find statistical significance that would otherwise be missed.
- Abstract(参考訳): 予測アルゴリズムの人気が高まるにつれて、新しいモデルのトレーニングとテストの両方に同じデータセットを使用することは、研究、ポリシー、産業で日常的に行われている。
サンプル分割は、モデルを推定し、評価するために別々のサブサンプルを使用することで、モデル特性に対する妥当な推論を実現する。
しかし、このアプローチには2つの欠点がある。各タスクはデータの一部しか使用せず、異なる分割が広い範囲で異なる推定に繋がる可能性があるからだ。
複数の分割を平均して、トレーニングにより多くのデータを使用し、テストにサンプル全体を使用し、再現性を向上させる推論アプローチを開発します。
そこで本論文では,多種多様なスプリットサンプル推定器に対する新たな中心極限定理を,比較的穏やかで一般的な条件下で証明することにより,スプリット間の観測の再利用による統計的依存性を論じる。
重要なのは、モデルの複雑さや収束率に制限はありません。
通常の近似に基づく信頼区間は,多くのアプリケーションにおいて有効であるが,2つのモデル間での性能を比較するなど,重要な事例が発見できる可能性がある。
このようなケースに対する新たな推論アプローチを開発し、分割間の依存性を明確に説明します。
さらに,スプリットサンプル推定器から得られるp値の再現性の測定を行った。
最後に、私の研究結果を、貧困の予測とランダム化実験における不均一な治療効果の学習という、開発と公共経済の2つの重要な問題に適用する。
繰り返しクロスフィットする私の推論アプローチは、以前の方法よりも優れたパワーを達成でき、多くの場合、見逃されるような統計的意義を見出すのに十分である。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。
提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Data thinning for convolution-closed distributions [2.299914829977005]
本稿では,観測を2つ以上の独立した部分に分割する手法であるデータ薄型化を提案する。
教師なし学習手法の結果の検証には,データの薄化が有効であることを示す。
論文 参考訳(メタデータ) (2023-01-18T02:47:41Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Benign-Overfitting in Conditional Average Treatment Effect Prediction
with Linear Regression [14.493176427999028]
線形回帰モデルを用いて条件平均処理効果(CATE)の予測における良性過剰適合理論について検討した。
一方,IPW-learnerは確率スコアが分かっていればリスクをゼロに収束させるが,T-learnerはランダムな割り当て以外の一貫性を達成できないことを示す。
論文 参考訳(メタデータ) (2022-02-10T18:51:52Z) - A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。
ブレグマン最小化の発散の観点から一般的な枠組みを開発する。
我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文 参考訳(メタデータ) (2021-12-07T01:23:20Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。