論文の概要: Asymptotic Theory of Iterated Empirical Risk Minimization, with Applications to Active Learning
- arxiv url: http://arxiv.org/abs/2601.23031v1
- Date: Fri, 30 Jan 2026 14:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.504435
- Title: Asymptotic Theory of Iterated Empirical Risk Minimization, with Applications to Active Learning
- Title(参考訳): 反復経験的リスク最小化の漸近理論とアクティブラーニングへの応用
- Authors: Hugo Cui, Yue M. Lu,
- Abstract要約: 本研究では,2つの連続ERMを同一データセット上で実行した反復的経験的リスク(ERM)のクラスについて検討する。
ガウス混合データに対して幅広い凸損失を訓練した線形モデルに対して、テスト誤差の鋭い特徴付けを導出する。
ラベル付け予算の段階的配分に関する基本的なトレードオフを明らかにするとともに、データ選択によって純粋に駆動されるテストエラーの2D動作を実証する。
- 参考スコア(独自算出の注目度): 15.858234832499585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a class of iterated empirical risk minimization (ERM) procedures in which two successive ERMs are performed on the same dataset, and the predictions of the first estimator enter as an argument in the loss function of the second. This setting, which arises naturally in active learning and reweighting schemes, introduces intricate statistical dependencies across samples and fundamentally distinguishes the problem from classical single-stage ERM analyses. For linear models trained with a broad class of convex losses on Gaussian mixture data, we derive a sharp asymptotic characterization of the test error in the high-dimensional regime where the sample size and ambient dimension scale proportionally. Our results provide explicit, fully asymptotic predictions for the performance of the second-stage estimator despite the reuse of data and the presence of prediction-dependent losses. We apply this theory to revisit a well-studied pool-based active learning problem, removing oracle and sample-splitting assumptions made in prior work. We uncover a fundamental tradeoff in how the labeling budget should be allocated across stages, and demonstrate a double-descent behavior of the test error driven purely by data selection, rather than model size or sample count.
- Abstract(参考訳): 2つの連続ERMを同一データセット上で実行し、第1推定器の予測を第2の損失関数の引数として入力する反復的経験的リスク最小化(ERM)手法について検討する。
この設定は、アクティブな学習と再重み付けスキームで自然に発生するもので、サンプル間の複雑な統計的依存関係を導入し、古典的な単段階EMM分析と問題を根本的に区別する。
ガウス混合データに対して幅広い凸損失を訓練した線形モデルに対して,サンプルサイズと周囲次元が比例する高次元状態における試験誤差の急激な漸近的特徴を導出する。
この結果から,データ再利用や予測依存損失の有無に関わらず,第2ステージ推定器の性能を明示的かつ完全漸近的に予測できることがわかった。
本研究では,この理論を適用して,事前の作業で得られたオラクルやサンプル分割仮定を除去し,プールベースのアクティブラーニング問題を再検討する。
モデルのサイズやサンプル数ではなく、データ選択によって純粋に駆動されるテストエラーの二重発散挙動を示す。
関連論文リスト
- Conformalized Regression for Continuous Bounded Outcomes [0.0]
境界付き連続的な結果の回帰問題は、実世界の統計学や機械学習の応用においてしばしば発生する。
既存の統計学および機械学習の文献の多くは、境界値の点予測や近似に基づく区間予測に重点を置いている。
我々は変換モデルとベータ回帰に基づく有界な結果に対する共形予測区間を開発する。
論文 参考訳(メタデータ) (2025-07-18T15:51:48Z) - Improved Sample Complexity For Diffusion Model Training Without Empirical Risk Minimizer Access [47.96419637803502]
拡散モデルを解析し、$widetildemathcalO(epsilon-4)$に束縛された最先端のサンプル複雑性を提供する。
スコア推定誤差の統計的および最適化成分への構造化分解は、拡散モデルを効率的に訓練する方法に関する重要な洞察を与える。
論文 参考訳(メタデータ) (2025-05-23T20:02:15Z) - Pre-validation Revisited [79.92204034170092]
シミュレーションと応用による予測,推測,誤差推定における事前検証の特性と利点を示す。
そこで本研究では, あるモデル下での事前検証予測のためのテスト統計量の解析的分布だけでなく, 推論を行うための一般的なブートストラップ手順も提案する。
論文 参考訳(メタデータ) (2025-05-21T00:20:14Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
この設定では、一般化されたクロスバリデーション推定器(GCV)がサンプル外リスクを正確に予測できないことを示す。
さらに、テストポイントがトレーニングセットと非自明な相関を持つ場合、時系列予測でしばしば発生する設定にまで分析を拡張します。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Mitigating multiple descents: A model-agnostic framework for risk
monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。
本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:41:40Z) - Efficient Estimation and Evaluation of Prediction Rules in
Semi-Supervised Settings under Stratified Sampling [6.930951733450623]
本稿では,2段階の半教師付き学習(SSL)手法を提案する。
ステップIでは、非ランダムサンプリングを考慮した非線形基底関数による重み付き回帰により、欠落ラベルをインプットする。
ステップIIでは、結果の予測器の整合性を確保するために、初期計算を増強する。
論文 参考訳(メタデータ) (2020-10-19T12:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。