論文の概要: Tensor Programs V: Tuning Large Neural Networks via Zero-Shot
Hyperparameter Transfer
- arxiv url: http://arxiv.org/abs/2203.03466v1
- Date: Mon, 7 Mar 2022 15:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 18:28:32.149053
- Title: Tensor Programs V: Tuning Large Neural Networks via Zero-Shot
Hyperparameter Transfer
- Title(参考訳): テンソルプログラムV:ゼロショットハイパーパラメータ転送による大規模ニューラルネットワークのチューニング
- Authors: Greg Yang, Edward J. Hu, Igor Babuschkin, Szymon Sidor, Xiaodong Liu,
David Farhi, Nick Ryder, Jakub Pachocki, Weizhu Chen, Jianfeng Gao
- Abstract要約: 我々は,最近発見された最大更新パラメトリゼーション(muP)において,モデルサイズが変化しても最適なHPが安定していることを示す。
これは、muTransferと呼ばれる新しいHPチューニングパラダイムにつながります。
muTransfer: muPでターゲットモデルをパラメータ化し、小さなモデルで間接的にHPをチューニングし、ゼロショットでフルサイズのモデルに転送する。
- 参考スコア(独自算出の注目度): 94.12036830697402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperparameter (HP) tuning in deep learning is an expensive process,
prohibitively so for neural networks (NNs) with billions of parameters. We show
that, in the recently discovered Maximal Update Parametrization (muP), many
optimal HPs remain stable even as model size changes. This leads to a new HP
tuning paradigm we call muTransfer: parametrize the target model in muP, tune
the HP indirectly on a smaller model, and zero-shot transfer them to the
full-sized model, i.e., without directly tuning the latter at all. We verify
muTransfer on Transformer and ResNet. For example, 1) by transferring
pretraining HPs from a model of 13M parameters, we outperform published numbers
of BERT-large (350M parameters), with a total tuning cost equivalent to
pretraining BERT-large once; 2) by transferring from 40M parameters, we
outperform published numbers of the 6.7B GPT-3 model, with tuning cost only 7%
of total pretraining cost. A Pytorch implementation of our technique can be
found at github.com/microsoft/mup and installable via `pip install mup`.
- Abstract(参考訳): ディープラーニングにおけるハイパーパラメータ(HP)チューニングは高価なプロセスであり、数十億のパラメータを持つニューラルネットワーク(NN)では違法である。
最近発見された最大更新パラメトリゼーション(muP)では、モデルサイズが変化しても最適なHPが安定している。
ターゲットモデルを muP でパラメータ化し、小さなモデルで間接的に HP をチューニングし、ゼロショットは後者を直接チューニングすることなくフルサイズのモデルに転送する。
我々は Transformer と ResNet で muTransfer を検証する。
例えば
1) プレトレーニングHPを13Mパラメータのモデルから転送することにより, BERT-large(350Mパラメータ)の数を1回に1回, BERT-largeを1回, 総チューニングコストを1回に1回, 比較した。
2) 40M パラメータの転送により,6.7B の GPT-3 モデルの数値を上回り,チューニングコストはトレーニング前コストの 7% に過ぎなかった。
本手法のPytorch実装はgithub.com/microsoft/mupで,‘pip install mup’経由でインストール可能である。
関連論文リスト
- Sparse maximal update parameterization: A holistic approach to sparse training dynamics [2.9312403481608715]
疎密で高密度なネットワークが、同じ最適なHPを共有していないことを示す。
安定したダイナミクスと効果的なトレーニングのレシピがなければ、大規模に分散性をテストするのにコストがかかります。
S$mu$Parは、アクティベーション、グラデーション、およびウェイト更新を全てのスケールが、スパーシティレベルとは無関係に保証する。
論文 参考訳(メタデータ) (2024-05-24T17:39:26Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - AdaMix: Mixture-of-Adaptations for Parameter-efficient Model Tuning [112.97430455461097]
本稿では,各トランスフォーマー層に導入される適応モジュールの混合を調整し,PLMの重みの大半を凍結させながら,汎用PEFT法を提案する。
PLMパラメータの0.1-0.2%だけをチューニングすることにより、AdaMix は NLU および NLG のタスクに対して SOTA パラメータ効率の良い微調整およびフルモデル微調整より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-31T16:23:36Z) - PALT: Parameter-Lite Transfer of Language Models for Knowledge Graph
Completion [108.8941541255567]
本稿では,知識グラフ(KG)完成のための事前学習言語モデル(LM)のパラメータ・ライト変換学習手法を提案する。
全てのLMパラメータを微調整する代わりに、元のLMパラメータを固定しながら、いくつかの新しいパラメータを調整します。
本研究は,マイクロチューニングよりもはるかに少ないパラメータをチューニングすることにより,ほとんどのタスクに非自明に伝達し,従来の最先端手法と競合することを示す。
論文 参考訳(メタデータ) (2022-10-25T02:22:29Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z) - Go Wider Instead of Deeper [11.4541055228727]
我々は、より深くではなく、より広い範囲でトレーニング可能なパラメータを効率的にデプロイするフレームワークを提案する。
私たちの最良のモデルはViT(Vision Transformer)を1.46%$、0.72倍のトレーニング可能なパラメータで上回ります。
私たちのフレームワークは、ViTとViT-MoEをそれぞれ0.83%$と2.08%$で上回ることができます。
論文 参考訳(メタデータ) (2021-07-25T14:44:24Z) - Surrogate Model Based Hyperparameter Tuning for Deep Learning with SPOT [0.40611352512781856]
本稿では、Keras/tensorflowで実装されたディープラーニングモデルのアーキテクチャレベルのパラメータをどのように最適化できるかを示す。
チューニング手順の実装は、統計コンピューティングのソフトウェア環境であるRに基づいて100%である。
論文 参考訳(メタデータ) (2021-05-30T21:16:51Z) - Switch Transformers: Scaling to Trillion Parameter Models with Simple
and Efficient Sparsity [35.84448624327473]
MoEルーティングアルゴリズムを簡略化し、通信コストと計算コストを削減して直感的に改善されたモデルを設計する。
我々は、初めて低精度(bfloat16)フォーマットで、大きなスパースモデルを訓練できることを示した。
我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。
論文 参考訳(メタデータ) (2021-01-11T16:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。