論文の概要: Tune As You Scale: Hyperparameter Optimization For Compute Efficient
Training
- arxiv url: http://arxiv.org/abs/2306.08055v1
- Date: Tue, 13 Jun 2023 18:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 23:11:53.577008
- Title: Tune As You Scale: Hyperparameter Optimization For Compute Efficient
Training
- Title(参考訳): tune as you scale: 効率的なトレーニングのためのハイパーパラメータ最適化
- Authors: Abraham J. Fetterman, Ellie Kitanidis, Joshua Albrecht, Zachary
Polizzi, Bryden Fogelman, Maksis Knutins, Bartosz Wr\'oblewski, James B.
Simon, Kanjun Qiu
- Abstract要約: そこで本研究では,大規模モデルのロバストなチューニング手法を提案する。
CarBSはパフォーマンスコストフロンティアの周辺でローカル検索を行う。
その結果、単純なベースラインをチューニングするだけで、ProcGenベンチマーク全体を効果的に解決できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperparameter tuning of deep learning models can lead to order-of-magnitude
performance gains for the same amount of compute. Despite this, systematic
tuning is uncommon, particularly for large models, which are expensive to
evaluate and tend to have many hyperparameters, necessitating difficult
judgment calls about tradeoffs, budgets, and search bounds. To address these
issues and propose a practical method for robustly tuning large models, we
present Cost-Aware Pareto Region Bayesian Search (CARBS), a Bayesian
optimization algorithm that performs local search around the performance-cost
Pareto frontier. CARBS does well even in unbounded search spaces with many
hyperparameters, learns scaling relationships so that it can tune models even
as they are scaled up, and automates much of the "black magic" of tuning. Among
our results, we effectively solve the entire ProcGen benchmark just by tuning a
simple baseline (PPO, as provided in the original ProcGen paper). We also
reproduce the model size vs. training tokens scaling result from the Chinchilla
project (Hoffmann et al. 2022), while simultaneously discovering scaling laws
for every other hyperparameter, via an easy automated process that uses
significantly less compute and is applicable to any deep learning problem (not
just language models).
- Abstract(参考訳): ディープラーニングモデルのハイパーパラメータチューニングは、同じ計算量に対して、桁違いのパフォーマンス向上につながる可能性がある。
それにもかかわらず、システムチューニングは、特に、評価が高価で多くのハイパーパラメータを持つ傾向がある大規模モデルでは珍しく、トレードオフ、予算、探索境界に関する難しい判断要求を必要とする。
これらの問題に対処し,大規模モデルのロバストなチューニング方法を提案するために,性能コストの低いパレートフロンティア周辺を局所的に探索するベイズ最適化アルゴリズムであるCARBSを提案する。
CARBSは、多くのハイパーパラメータを持つ非有界検索空間でもうまく機能し、スケールアップしてもモデルをチューニングできるようにスケール関係を学び、チューニングの「ブラックマジック」の多くを自動化する。
この結果のうち,単純なベースライン(ppo)をチューニングすることによって,progenベンチマーク全体を効果的に解決した。
また,chinchillaプロジェクト(hoffmann et al. 2022)によるモデルサイズとトレーニングトークンのスケーリング結果を再現するとともに,計算量を大幅に削減し,ディープラーニング問題(言語モデルだけでなく)に適用可能な,簡単な自動化プロセスを通じて,他のハイパーパラメータ毎のスケーリング法則を同時に発見する。
関連論文リスト
- A Comparative Study of Hyperparameter Tuning Methods [0.0]
木構造型Parzen Estimator (TPE)、遺伝的検索、ランダム検索は回帰および分類タスク間で評価される。
ランダム検索は回帰タスクに優れ、TPEは分類タスクに効果的であった。
論文 参考訳(メタデータ) (2024-08-29T10:35:07Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。
特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。
提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文 参考訳(メタデータ) (2022-07-07T04:42:54Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Towards Robust and Automatic Hyper-Parameter Tunning [39.04604349338802]
我々は,新しいHPO法を導入し,畳み込みネットワークの中間層の低ランク因子分解を用いて解析応答面を定義する方法について検討する。
我々は,この表面がモデル性能の代理としてどのように振る舞うかを定量化し,オートHyperと呼ぶ信頼領域探索アルゴリズムを用いて解くことができる。
論文 参考訳(メタデータ) (2021-11-28T05:27:34Z) - HYPPO: A Surrogate-Based Multi-Level Parallelism Tool for Hyperparameter
Optimization [0.2844198651668139]
HYPPOは適応的な代理モデルを使用し、モデル予測の不確実性を説明して、堅牢な予測を行う正確で信頼性の高いモデルを見つける。
本稿では,時系列予測と画像分類問題に対する様々なソフトウェア機能と,コンピュータ断層画像再構成における科学的応用について述べる。
論文 参考訳(メタデータ) (2021-10-04T20:14:22Z) - High-Dimensional Bayesian Optimization with Multi-Task Learning for
RocksDB [0.0]
RocksDBは汎用の組み込みキーバリューストアです。
本論文では、10パラメータの自動チューニングによるRocksDB IOオペレーションのスループットの最大化について検討する。
論文 参考訳(メタデータ) (2021-03-30T11:38:52Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Weighting Is Worth the Wait: Bayesian Optimization with Importance
Sampling [34.67740033646052]
ベイジアン最適化のステート・オブ・ザ・アートランタイムと,さまざまなデータセットと複雑なニューラルネットワークアーキテクチャの最終的な検証エラーを改善した。
評価の複雑さと品質をトレードオフするISのパラメータ化を学習することで、ベイジアン最適化のステート・オブ・ザ・アートランタイムと、さまざまなデータセットと複雑なニューラルネットワークアーキテクチャの最終的な検証エラーを改善します。
論文 参考訳(メタデータ) (2020-02-23T15:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。