論文の概要: An Empirical Study on Hyperparameter Optimization for Fine-Tuning
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2106.09204v1
- Date: Thu, 17 Jun 2021 01:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 05:48:30.524231
- Title: An Empirical Study on Hyperparameter Optimization for Fine-Tuning
Pre-trained Language Models
- Title(参考訳): 微調整事前学習言語モデルのハイパーパラメータ最適化に関する実証的研究
- Authors: Xueqing Liu, Chi Wang
- Abstract要約: GLUEデータセット上で2つの最先端言語モデルを微調整したHPOアルゴリズムの性能について検討・報告する。
同じ時間予算で、HPOは2つの理由でグリッド検索を上回りません。
- 参考スコア(独自算出の注目度): 10.599060942412144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of fine-tuning pre-trained language models largely depends on
the hyperparameter configuration. In this paper, we investigate the performance
of modern hyperparameter optimization methods (HPO) on fine-tuning pre-trained
language models. First, we study and report three HPO algorithms' performances
on fine-tuning two state-of-the-art language models on the GLUE dataset. We
find that using the same time budget, HPO often fails to outperform grid search
due to two reasons: insufficient time budget and overfitting. We propose two
general strategies and an experimental procedure to systematically troubleshoot
HPO's failure cases. By applying the procedure, we observe that HPO can succeed
with more appropriate settings in the search space and time budget; however, in
certain cases overfitting remains. Finally, we make suggestions for future
work. Our implementation can be found in
https://github.com/microsoft/FLAML/tree/main/flaml/nlp/.
- Abstract(参考訳): 微調整事前学習言語モデルの性能は、主にハイパーパラメータ構成に依存する。
本稿では,事前学習された言語モデルにおける現代ハイパーパラメータ最適化手法(hpo)の性能について検討する。
まず,GLUEデータセット上での2つの最先端言語モデルの微調整におけるHPOアルゴリズムの性能について検討し,報告する。
時間的予算の不足とオーバーフィットという2つの理由から、hpoが同じ時間的予算を使用すると、グリッド検索を上回らないことが多いことが分かりました。
我々は,HPOの故障事例を系統的にトラブルシュートするための2つの一般的な戦略と実験的手順を提案する。
この手順を適用することで、HPOは検索空間や時間予算においてより適切な設定で成功するが、一部の場合では過度に適合する。
最後に、今後の仕事について提案する。
実装はhttps://github.com/microsoft/FLAML/tree/main/flaml/nlp/で確認できます。
関連論文リスト
- Using Large Language Models for Hyperparameter Optimization [31.537306578628556]
本稿では,高パラメータ最適化(HPO)において,基礎的大言語モデル(LLM)を用いて決定を行う。
実験的な評価により,LLMは従来のHPO法と同等あるいは同等に動作可能であることが示された。
論文 参考訳(メタデータ) (2023-12-07T18:46:50Z) - PriorBand: Practical Hyperparameter Optimization in the Age of Deep
Learning [49.92394599459274]
我々は,Deep Learning(DL)パイプラインに適したHPOアルゴリズムであるPresideBandを提案する。
各種のDLベンチマークでその堅牢性を示し、情報的専門家のインプットと、専門家の信条の低さに対してその利得を示す。
論文 参考訳(メタデータ) (2023-06-21T16:26:14Z) - Two-step hyperparameter optimization method: Accelerating hyperparameter
search by using a fraction of a training dataset [0.15420205433587747]
計算要求と待ち時間を抑制するための戦略的ソリューションとして,2段階のHPO法を提案する。
我々は最近の2段階HPO法のエアロゾル活性化のためのニューラルネットワークエミュレータ開発への応用について述べる。
論文 参考訳(メタデータ) (2023-02-08T02:38:26Z) - Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。
特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。
提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文 参考訳(メタデータ) (2022-07-07T04:42:54Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Hyperparameter Optimization: Foundations, Algorithms, Best Practices and
Open Challenges [5.139260825952818]
本稿では,グリッドやランダム検索,進化アルゴリズム,ベイズ最適化,ハイパーバンド,レースなどの重要なHPO手法について述べる。
HPOアルゴリズム自体、パフォーマンス評価、HPOとMLパイプラインの結合方法、ランタイムの改善、並列化など、HPOの実行時に行うべき重要な選択について、実用的なレコメンデーションを提供する。
論文 参考訳(メタデータ) (2021-07-13T04:55:47Z) - Multi-objective Asynchronous Successive Halving [10.632606255280649]
本稿では,非同期半減期 (ASHA) を多目的 (MO) 設定に拡張するアルゴリズムを提案する。
実験分析の結果,MO ASHAはMO HPOを大規模に実行可能であることがわかった。
我々のアルゴリズムは、この地域における将来の研究の新たなベースラインを確立する。
論文 参考訳(メタデータ) (2021-06-23T19:39:31Z) - Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。
提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文 参考訳(メタデータ) (2021-01-17T04:55:30Z) - Practical and sample efficient zero-shot HPO [8.41866793161234]
利用可能なアプローチの概要と、この問題に対処する2つの新しいテクニックを紹介します。
1つは、サロゲートモデルに基づいて、クエリのためのデータセットと設定のペアを適応的に選択する。
2つ目は、サロゲートモデルの検出、チューニング、テストが問題となる設定のためのもので、HyperBandとサブモジュラー最適化を組み合わせた多要素技術である。
論文 参考訳(メタデータ) (2020-07-27T08:56:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。