論文の概要: Simple and Effective Gradient-Based Tuning of Sequence-to-Sequence
Models
- arxiv url: http://arxiv.org/abs/2209.04683v1
- Date: Sat, 10 Sep 2022 14:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:18:40.660072
- Title: Simple and Effective Gradient-Based Tuning of Sequence-to-Sequence
Models
- Title(参考訳): シーケンス・ツー・シークエンスモデルの単純かつ効果的な勾配ベースチューニング
- Authors: Jared Lichtarge and Chris Alberti and Shankar Kumar
- Abstract要約: より大きな言語モデルをトレーニングする膨大なコストは、チューニングを違法に高価にする可能性がある。
本稿では,勾配に基づくハイパーパラメータ最適化をシーケンシャル・ツー・シーケンス・タスクに初めて適用する。
ニューラルネットワーク翻訳と自然言語理解(NLU)の両タスクにおいて,強いベースラインに対する効率性と性能の向上を示す。
- 参考スコア(独自算出の注目度): 8.370770440898454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent trends towards training ever-larger language models have substantially
improved machine learning performance across linguistic tasks. However, the
huge cost of training larger models can make tuning them prohibitively
expensive, motivating the study of more efficient methods. Gradient-based
hyper-parameter optimization offers the capacity to tune hyper-parameters
during training, yet has not previously been studied in a sequence-to-sequence
setting. We apply a simple and general gradient-based hyperparameter
optimization method to sequence-to-sequence tasks for the first time,
demonstrating both efficiency and performance gains over strong baselines for
both Neural Machine Translation and Natural Language Understanding (NLU) tasks
(via T5 pretraining). For translation, we show the method generalizes across
language pairs, is more efficient than Bayesian hyper-parameter optimization,
and that learned schedules for some hyper-parameters can out-perform even
optimal constant-valued tuning. For T5, we show that learning hyper-parameters
during pretraining can improve performance across downstream NLU tasks. When
learning multiple hyper-parameters concurrently, we show that the global
learning rate can follow a schedule over training that improves performance and
is not explainable by the `short-horizon bias' of greedy methods
\citep{wu2018}. We release the code used to facilitate further research.
- Abstract(参考訳): 恒常的な言語モデルのトレーニングに向けた最近のトレンドは、言語タスク間での機械学習のパフォーマンスを大幅に改善している。
しかし、より大きなモデルをトレーニングする膨大なコストは、チューニングを違法に高価にし、より効率的な方法の研究を動機付けている。
勾配に基づくハイパーパラメータ最適化は、トレーニング中にハイパーパラメータをチューニングする能力を提供するが、シーケンスツーシーケンス設定ではこれまで研究されていなかった。
ニューラルネットワーク翻訳と自然言語理解(NLU)の両方のタスクに対して(T5事前学習による)強いベースライン上での効率性と性能の向上を実証し,シーケンス・ツー・シーケンスのタスクに対して,単純で一般的な勾配に基づくハイパーパラメータ最適化手法を初めて適用した。
翻訳では, 言語対をまたいで一般化し, ベイジアンハイパーパラメータ最適化よりも効率的であり, ハイパーパラメータの学習スケジュールは, 最適定数値チューニングよりも優れることを示す。
t5では,事前学習中にハイパーパラメータを学習することで,下流のnluタスクにおけるパフォーマンス向上が期待できる。
複数のハイパーパラメータを同時に学習すると、グローバル学習率は、パフォーマンスを向上させるトレーニングよりもスケジュールに従うことができ、greedyメソッドの‘short-horizon bias’によって説明できないことを示す。
さらなる研究を促進するために使用されるコードをリリースします。
関連論文リスト
- Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Scalable One-Pass Optimisation of High-Dimensional Weight-Update
Hyperparameters by Implicit Differentiation [0.0]
近似的過勾配型ハイパーパラメータオプティマイザを開発した。
トレーニングは1回のみであり、再スタートは行わない。
また、真の過次性への収束を動機づける議論も提供する。
論文 参考訳(メタデータ) (2021-10-20T09:57:57Z) - How much progress have we made in neural network training? A New
Evaluation Protocol for Benchmarking Optimizers [86.36020260204302]
本稿では、エンドツーエンドの効率とデータ付加訓練の効率を評価するための新しいベンチマークプロトコルを提案する。
評価プロトコルは, ランダム探索よりも, 人間のチューニング行動とよく一致していることを示すために, 人間の実験を行った。
次に,提案したベンチマークフレームワークをコンピュータビジョン,自然言語処理,強化学習,グラフマイニングなどのタスクに適用する。
論文 参考訳(メタデータ) (2020-10-19T21:46:39Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z) - Multi-level Training and Bayesian Optimization for Economical
Hyperparameter Optimization [12.92634461859467]
本稿では,ハイパーパラメータ最適化に必要なトレーニング時間の総量を削減するための効果的な手法を開発する。
光のトレーニングによって生じる近似的な性能測定をキャリブレーションするために, トランキャット付加法ガウス過程モデルを提案する。
このモデルに基づいて、逐次モデルに基づくアルゴリズムが開発され、構成空間のパフォーマンスプロファイルを生成し、最適なモデルを見つける。
論文 参考訳(メタデータ) (2020-07-20T09:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。