論文の概要: Toward Theoretical Guidance for Two Common Questions in Practical
Cross-Validation based Hyperparameter Selection
- arxiv url: http://arxiv.org/abs/2301.05131v1
- Date: Thu, 12 Jan 2023 16:37:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:44:29.966590
- Title: Toward Theoretical Guidance for Two Common Questions in Practical
Cross-Validation based Hyperparameter Selection
- Title(参考訳): 実践的クロスバリデーションに基づくハイパーパラメータ選択における2つの共通質問に対する理論的ガイダンスに向けて
- Authors: Parikshit Ram and Alexander G. Gray and Horst C. Samulowitz and
Gregory Bramble
- Abstract要約: クロスバリデーションに基づくハイパーパラメータ選択における2つの一般的な質問に対する最初の理論的治療について述べる。
これらの一般化は、少なくとも、常に再トレーニングを行うか、再トレーニングを行わないかを常に実行可能であることを示す。
- 参考スコア(独自算出の注目度): 72.76113104079678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show, to our knowledge, the first theoretical treatments of two common
questions in cross-validation based hyperparameter selection: (1) After
selecting the best hyperparameter using a held-out set, we train the final
model using {\em all} of the training data -- since this may or may not improve
future generalization error, should one do this? (2) During optimization such
as via SGD (stochastic gradient descent), we must set the optimization
tolerance $\rho$ -- since it trades off predictive accuracy with computation
cost, how should one set it? Toward these problems, we introduce the {\em
hold-in risk} (the error due to not using the whole training data), and the
{\em model class mis-specification risk} (the error due to having chosen the
wrong model class) in a theoretical view which is simple, general, and suggests
heuristics that can be used when faced with a dataset instance. In
proof-of-concept studies in synthetic data where theoretical quantities can be
controlled, we show that these heuristics can, respectively, (1) always perform
at least as well as always performing retraining or never performing
retraining, (2) either improve performance or reduce computational overhead by
$2\times$ with no loss in predictive performance.
- Abstract(参考訳): We show, to our knowledge, the first theoretical treatments of two common questions in cross-validation based hyperparameter selection: (1) After selecting the best hyperparameter using a held-out set, we train the final model using {\em all} of the training data -- since this may or may not improve future generalization error, should one do this? (2) During optimization such as via SGD (stochastic gradient descent), we must set the optimization tolerance $\rho$ -- since it trades off predictive accuracy with computation cost, how should one set it?
これらの問題に対して,データ集合のインスタンスに直面する場合に使用可能なヒューリスティックスを提案する理論的な視点において,"em hold-in risk} (トレーニングデータ全体を使用しないことによるエラー)と"em model class mis-specification risk" (間違ったモデルクラスを選んだことによるエラー)を導入する。
理論量の制御が可能な合成データにおける概念実証研究において, それらのヒューリスティックは, 1) 予測性能を損なわずに, (2) 性能を改善したり, 計算オーバーヘッドを2/times$に減らしたり, 常に再訓練や再訓練を行なえることを示す。
関連論文リスト
- Smart Predict-then-Optimize Method with Dependent Data: Risk Bounds and Calibration of Autoregression [7.369846475695131]
本稿では,決定段階における最適化問題を直接対象とする自己回帰型SPO手法を提案する。
我々は, 絶対損失と最小二乗損失と比較して, SPO+サロゲートの有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-11-19T17:02:04Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - A Statistical Theory of Regularization-Based Continual Learning [10.899175512941053]
線形回帰タスクの順序に基づく正規化に基づく連続学習の統計的解析を行う。
まず、全てのデータが同時に利用可能であるかのように得られたオラクル推定器の収束率を導出する。
理論解析の副産物は、早期停止と一般化された$ell$-regularizationの等価性である。
論文 参考訳(メタデータ) (2024-06-10T12:25:13Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。
提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文 参考訳(メタデータ) (2022-06-11T13:08:08Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Generalization Guarantees for Neural Architecture Search with
Train-Validation Split [48.265305046655996]
本稿では,列車検証分割の統計的側面について検討する。
リスクや高度勾配などの検証損失の洗練された特性は、真のテスト損失の指標であることを示す。
また、NAS、マルチカーネル学習、低ランク行列学習の厳密な接続も強調する。
論文 参考訳(メタデータ) (2021-04-29T06:11:00Z) - Muddling Labels for Regularization, a novel approach to generalization [0.0]
一般化は機械学習の中心的な問題である。
本稿では,データ分割のない一般化を実現する新しい手法を提案する。
これはモデルが過度に適合する傾向を直接定量化する新しいリスク尺度に基づいている。
論文 参考訳(メタデータ) (2021-02-17T14:02:30Z) - Whitening and second order optimization both make information in the
dataset unusable during training, and can reduce or prevent generalization [50.53690793828442]
データの白化と二階最適化の両方が、一般化を損なうか、完全に阻止できることを示す。
一般モデルのクラス、すなわち、完全に連結された第一層を持つモデルに対して、この行列に含まれる情報が一般化に使用できる唯一の情報であることを示す。
論文 参考訳(メタデータ) (2020-08-17T18:00:05Z) - Rethinking the Hyperparameters for Fine-tuning [78.15505286781293]
事前訓練されたImageNetモデルからの微調整は、様々なコンピュータビジョンタスクのデファクトスタンダードとなっている。
ファインチューニングの現在のプラクティスは、通常、ハイパーパラメータのアドホックな選択を選択することである。
本稿では、微調整のためのハイパーパラメータの設定に関するいくつかの一般的なプラクティスを再検討する。
論文 参考訳(メタデータ) (2020-02-19T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。