論文の概要: Interleaved Resampling and Refitting: Data and Compute-Efficient Evaluation of Black-Box Predictors
- arxiv url: http://arxiv.org/abs/2603.14218v1
- Date: Sun, 15 Mar 2026 04:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.677656
- Title: Interleaved Resampling and Refitting: Data and Compute-Efficient Evaluation of Black-Box Predictors
- Title(参考訳): インターリーブリサンプリングとリフィット:ブラックボックス予測器のデータと計算効率の評価
- Authors: Haichen Hu, David Simchi-Levi,
- Abstract要約: 本研究では,2乗損失下での大規模実証的リスク最小化の余剰リスクを評価することの課題について検討する。
トレーニングアルゴリズムへのブラックボックスアクセスのみを仮定し、過剰リスクを推定するための効率的な手順を開発する。
- 参考スコア(独自算出の注目度): 15.386375612838371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of evaluating the excess risk of large-scale empirical risk minimization under the square loss. Leveraging the idea of wild refitting and resampling, we assume only black-box access to the training algorithm and develop an efficient procedure for estimating the excess risk. Our evaluation algorithm is both computationally and data efficient. In particular, it requires access to only a single dataset and does not rely on any additional validation data. Computationally, it only requires refitting the model on several much smaller datasets obtained through sequential resampling, in contrast to previous wild refitting methods that require full-scale retraining and might therefore be unsuitable for large-scale trained predictors. Our algorithm has an interleaved sequential resampling-and-refitting structure. We first construct pseudo-responses through a randomized residual symmetrization procedure. At each round, we thus resample two sub-datasets from the resulting covariate pseudo-response pairs. Finally, we retrain the model separately on these two small artificial datasets. We establish high probability excess risk guarantees under both fixed design and random design settings, showing that with a suitably chosen noise scale, our interleaved resampling and refitting algorithm yields an upper bound on the prediction error. Our theoretical analysis draws on tools from empirical process theory, harmonic analysis, Toeplitz operator theory, and sharp tensor concentration inequalities.
- Abstract(参考訳): 本研究では,2乗損失下での大規模実証的リスク最小化の余剰リスクを評価することの課題について検討する。
ワイルドリフィットとリサンプリングのアイデアを活用して、トレーニングアルゴリズムへのブラックボックスアクセスのみを仮定し、過剰リスクを推定するための効率的な手順を開発する。
我々の評価アルゴリズムは計算量もデータ効率も高い。
特に、単一のデータセットのみにアクセスする必要があり、追加のバリデーションデータに依存しない。
計算上は、シーケンシャルな再サンプリングによって得られたより小さなデータセットでモデルを再構成することしか必要としないが、実際の再トレーニングを必要とする従来のワイルドな再構成手法とは対照的に、大規模なトレーニングされた予測器には適さない可能性がある。
提案アルゴリズムは, 逐次再サンプリング・再適合構造を有する。
まず,擬似応答をランダム化残差対称性化法により構築する。
各ラウンドにおいて、得られた共変擬応答対から2つのサブデータセットを再サンプリングする。
最後に、これらの2つの小さな人工データセット上で、モデルを別々にトレーニングする。
固定設計とランダム設計の両方の条件下で高い確率過剰リスク保証を確立し、適切な選択のノイズスケールで、インターリーブされた再サンプリングと再適合アルゴリズムが予測誤差に上限を与えることを示す。
我々の理論解析は、経験的プロセス理論、調和解析、Toeplitz演算子理論、鋭いテンソル濃度の不等式から導かれる。
関連論文リスト
- Doubly Wild Refitting: Model-Free Evaluation of High Dimensional Black-Box Predictions under Convex Losses [15.386375612838371]
一般凸損失関数の下での実証的リスク最小化のための過剰リスク評価の問題について検討する。
我々の貢献は、過大なリスクを計算し、固定設計設定の下で高確率な上限を提供する効率的な調整手順である。
論文 参考訳(メタデータ) (2025-11-24T05:38:47Z) - Wild refitting for black box prediction [29.715181593057803]
本稿では,インスタンスワイド平均二乗予測誤差に基づいて,高確率上限計算のための計算効率の良い修正手順を記述・解析する。
予測方法への単一のデータセットとブラックボックスアクセスのみを必要とするため、適切な残差を計算し、プリファクタ$rho$でそれらをシンメトリズしてスケーリングし、修正された予測問題を定義し、解決する3つのステップで構成される。
論文 参考訳(メタデータ) (2025-06-26T16:41:55Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。
提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - Gaining Outlier Resistance with Progressive Quantiles: Fast Algorithms
and Theoretical Studies [1.6457778420360534]
任意の損失関数を強固化するために, 外部抵抗推定の枠組みを導入する。
通常のデータセットでは、データ再見積の回数を大幅に削減できるような、開始点の要件を緩和する新しい手法が提案されている。
得られた推定器は、必ずしも大域的でも大域的でもなくても、両方の低次元において最適性を楽しむことができる。
論文 参考訳(メタデータ) (2021-12-15T20:35:21Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。