論文の概要: Tune without Validation: Searching for Learning Rate and Weight Decay on
Training Sets
- arxiv url: http://arxiv.org/abs/2403.05532v1
- Date: Fri, 8 Mar 2024 18:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 12:48:05.177668
- Title: Tune without Validation: Searching for Learning Rate and Weight Decay on
Training Sets
- Title(参考訳): 検証なしチューン:トレーニングセットにおける学習率と体重減少の探索
- Authors: Lorenzo Brigato and Stavroula Mougiakakou
- Abstract要約: Tune without Validation (Twin)は、学習率と体重減少をチューニングするためのパイプラインである。
我々は、20の画像分類データセットに関する広範な実験を行い、ディープネットワークの数家族を訓練する。
我々は,スクラッチと微調整の訓練において適切なHP選択を示し,小サンプルシナリオを強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Tune without Validation (Twin), a pipeline for tuning learning
rate and weight decay without validation sets. We leverage a recent theoretical
framework concerning learning phases in hypothesis space to devise a heuristic
that predicts what hyper-parameter (HP) combinations yield better
generalization. Twin performs a grid search of trials according to an
early-/non-early-stopping scheduler and then segments the region that provides
the best results in terms of training loss. Among these trials, the weight norm
strongly correlates with predicting generalization. To assess the effectiveness
of Twin, we run extensive experiments on 20 image classification datasets and
train several families of deep networks, including convolutional, transformer,
and feed-forward models. We demonstrate proper HP selection when training from
scratch and fine-tuning, emphasizing small-sample scenarios.
- Abstract(参考訳): Tune without Validation (Twin) は,検証セットを使わずに学習率や体重減少をチューニングするためのパイプラインである。
仮説空間における学習フェーズに関する最近の理論的枠組みを利用して、ハイパーパラメータ(hp)の組み合わせがより一般化をもたらすかを予測できるヒューリスティックを考案する。
Twinは、早期/早期のスケジューラに従って試行をグリッドで検索し、トレーニング損失の観点で最良の結果を提供する領域をセグメント化する。
これらの試行の中で、ウェイトノルムは予測一般化と強く相関する。
ツインの有効性を評価するため,20種類の画像分類データセットを広範囲に実験し,畳み込み,トランスフォーマー,フィードフォワードモデルなど,複数の深層ネットワークを訓練した。
我々は,スクラッチと微調整の訓練において適切なHP選択を示し,小サンプルシナリオを強調した。
関連論文リスト
- TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Flipped Classroom: Effective Teaching for Time Series Forecasting [0.0]
LSTMとGRUに基づくシーケンス・ツー・シーケンス・モデルは時系列データの予測において最も一般的な選択肢である。
この文脈における2つの一般的なトレーニング戦略は、教師強制(TF)とフリーランニング(FR)である。
いくつかの新しいカリキュラムを提案し、その性能を2つの実験セットで体系的に評価する。
論文 参考訳(メタデータ) (2022-10-17T11:53:25Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Delving into Sample Loss Curve to Embrace Noisy and Imbalanced Data [17.7825114228313]
破損したラベルとクラス不均衡は、実際に収集されたトレーニングデータでよく見られる。
既存のアプローチは、サンプルの再重み付け戦略を採用することで、これらの問題を緩和します。
しかし、ラベルが破損したサンプルと、訓練データに一般的に共存する尾のクラスは偏りがあった。
論文 参考訳(メタデータ) (2021-12-30T09:20:07Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - Rethinking the Hyperparameters for Fine-tuning [78.15505286781293]
事前訓練されたImageNetモデルからの微調整は、様々なコンピュータビジョンタスクのデファクトスタンダードとなっている。
ファインチューニングの現在のプラクティスは、通常、ハイパーパラメータのアドホックな選択を選択することである。
本稿では、微調整のためのハイパーパラメータの設定に関するいくつかの一般的なプラクティスを再検討する。
論文 参考訳(メタデータ) (2020-02-19T18:59:52Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。