論文の概要: Rethinking the Hyperparameters for Fine-tuning
- arxiv url: http://arxiv.org/abs/2002.11770v1
- Date: Wed, 19 Feb 2020 18:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:00:30.472357
- Title: Rethinking the Hyperparameters for Fine-tuning
- Title(参考訳): 微調整のためのハイパーパラメータ再考
- Authors: Hao Li, Pratik Chaudhari, Hao Yang, Michael Lam, Avinash Ravichandran,
Rahul Bhotika, Stefano Soatto
- Abstract要約: 事前訓練されたImageNetモデルからの微調整は、様々なコンピュータビジョンタスクのデファクトスタンダードとなっている。
ファインチューニングの現在のプラクティスは、通常、ハイパーパラメータのアドホックな選択を選択することである。
本稿では、微調整のためのハイパーパラメータの設定に関するいくつかの一般的なプラクティスを再検討する。
- 参考スコア(独自算出の注目度): 78.15505286781293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning from pre-trained ImageNet models has become the de-facto standard
for various computer vision tasks. Current practices for fine-tuning typically
involve selecting an ad-hoc choice of hyperparameters and keeping them fixed to
values normally used for training from scratch. This paper re-examines several
common practices of setting hyperparameters for fine-tuning. Our findings are
based on extensive empirical evaluation for fine-tuning on various transfer
learning benchmarks. (1) While prior works have thoroughly investigated
learning rate and batch size, momentum for fine-tuning is a relatively
unexplored parameter. We find that the value of momentum also affects
fine-tuning performance and connect it with previous theoretical findings. (2)
Optimal hyperparameters for fine-tuning, in particular, the effective learning
rate, are not only dataset dependent but also sensitive to the similarity
between the source domain and target domain. This is in contrast to
hyperparameters for training from scratch. (3) Reference-based regularization
that keeps models close to the initial model does not necessarily apply for
"dissimilar" datasets. Our findings challenge common practices of fine-tuning
and encourages deep learning practitioners to rethink the hyperparameters for
fine-tuning.
- Abstract(参考訳): 事前訓練されたImageNetモデルからの微調整は、様々なコンピュータビジョンタスクのデファクトスタンダードとなっている。
ファインチューニングの現在のプラクティスは、通常、ハイパーパラメータのアドホックな選択を選択し、それらをスクラッチからトレーニングに通常使用される値に固定することです。
本稿では,微調整のためのハイパーパラメータ設定の一般的な方法を再検討する。
本研究は, 各種移動学習ベンチマークの微調整における広範な実験的評価に基づく。
1) 先行研究は学習率とバッチサイズを徹底的に研究してきたが, 微調整の運動量は未探索のパラメータである。
運動量の値は微調整性能にも影響し, 過去の理論的知見と結びついている。
2)微調整のための最適ハイパーパラメータ,特に効果的な学習速度は,データセットに依存するだけでなく,ソースドメインとターゲットドメインの類似性にも敏感である。
これは、スクラッチからトレーニングするためのハイパーパラメータとは対照的である。
3)初期モデルに近いモデルを保持する参照ベースの正規化は、必ずしも「異なる」データセットに適用されない。
本研究は、微調整の一般的な実践に挑戦し、深層学習実践者が微調整のハイパーパラメータを再考することを奨励するものである。
関連論文リスト
- A Unified Gaussian Process for Branching and Nested Hyperparameter
Optimization [19.351804144005744]
ディープラーニングでは、条件に依存したパラメータのチューニングが一般的に行われている。
新しいGPモデルでは、新しいカーネル関数を通じて入力変数間の依存構造が説明される。
ニューラルネットワークの一連の合成シミュレーションおよび実データ応用において、高い予測精度とより良い最適化効率が観察される。
論文 参考訳(メタデータ) (2024-01-19T21:11:32Z) - A Framework for History-Aware Hyperparameter Optimisation in
Reinforcement Learning [8.659973888018781]
強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件に依存する。
これらのトレードオフを軽減するため,複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案する。
提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
論文 参考訳(メタデータ) (2023-03-09T11:30:40Z) - Toward Theoretical Guidance for Two Common Questions in Practical
Cross-Validation based Hyperparameter Selection [72.76113104079678]
クロスバリデーションに基づくハイパーパラメータ選択における2つの一般的な質問に対する最初の理論的治療について述べる。
これらの一般化は、少なくとも、常に再トレーニングを行うか、再トレーニングを行わないかを常に実行可能であることを示す。
論文 参考訳(メタデータ) (2023-01-12T16:37:12Z) - Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。
特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。
提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文 参考訳(メタデータ) (2022-07-07T04:42:54Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Guided Hyperparameter Tuning Through Visualization and Inference [12.035299005299306]
本稿では,ディープラーニングの実践者がハイパーパラメータをより効率的に探索し,チューニングし,最適化することができる可視化システムを提案する。
鍵となる考え方は、予測メカニズムを使用して、より最適なハイパーパラメータを直接提案することである。
私たちはこのツールをディープラーニングモデルビルダーに関するユーザスタディで評価し、私たちの参加者はツールの採用にほとんど問題がなく、ワークフローの一部として作業しています。
論文 参考訳(メタデータ) (2021-05-24T19:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。