論文の概要: HyperTuning: Toward Adapting Large Language Models without
Back-propagation
- arxiv url: http://arxiv.org/abs/2211.12485v1
- Date: Tue, 22 Nov 2022 18:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:33:56.639744
- Title: HyperTuning: Toward Adapting Large Language Models without
Back-propagation
- Title(参考訳): HyperTuning: バックプロパゲーションのない大規模言語モデルへの適応
- Authors: Jason Phang, Yi Mao, Pengcheng He, Weizhu Chen
- Abstract要約: 固定下流モデルのタスク固有パラメータを生成するためにハイパーモデルを用いたモデル適応手法を提案する。
したがってHyperTuningは、さまざまなダウンストリームアプリケーションに大規模な言語モデルを活用するための、柔軟で効率的な方法である。
- 参考スコア(独自算出の注目度): 41.402342404690835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large language models for different tasks can be costly and
inefficient, and even methods that reduce the number of tuned parameters still
require full gradient-based optimization. We propose HyperTuning, a novel
approach to model adaptation that uses a hypermodel to generate task-specific
parameters for a fixed downstream model. We demonstrate a simple setup for
hypertuning with HyperT5, a T5-based hypermodel that produces soft prefixes or
LoRA parameters for a frozen T5 model from few-shot examples. We train HyperT5
in two stages: first, hyperpretraining with a modified conditional language
modeling objective that trains a hypermodel to generate parameters; second,
multi-task fine-tuning (MTF) on a large number of diverse language tasks. We
evaluate HyperT5 on P3, MetaICL and Super-NaturalInstructions datasets, and
show that it can effectively generate parameters for unseen tasks. Moreover, we
show that using hypermodel-generated parameters as initializations for further
parameter-efficient fine-tuning improves performance. HyperTuning can thus be a
flexible and efficient way to leverage large language models for diverse
downstream applications.
- Abstract(参考訳): 異なるタスクのために大きな言語モデルを微調整することはコストと非効率がかかり、チューニングされたパラメータの数を減らすメソッドでさえ、完全な勾配に基づく最適化が必要である。
固定下流モデルのタスク固有パラメータを生成するためにハイパーモデルを用いた新しいモデル適応手法であるHyperTuningを提案する。
少数の例から,凍結したT5モデルに対してソフトプレフィックスやLoRAパラメータを生成する,T5ベースのハイパーモデルであるHyperT5によるハイパーチューニングの簡単なセットアップを示す。
まず、パラメータを生成するためにハイパーモデルをトレーニングする修正された条件付き言語モデリングの目的と、多数の多様な言語タスクでマルチタスクの微調整(MTF)の2つの段階でHyperT5をトレーニングする。
P3, MetaICL および Super-Natural Instructions データセット上で HyperT5 を評価し,未確認タスクのパラメータを効果的に生成可能であることを示す。
さらに,パラメータ効率向上のための初期化としてハイパーモデル生成パラメータを用いると,性能が向上することを示す。
したがってハイパーチューニングは、下流のさまざまなアプリケーションに大規模な言語モデルを活用するための柔軟で効率的な方法である。
関連論文リスト
- Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer
Learning for Point Cloud Analysis [53.70588957376317]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - One For All & All For One: Bypassing Hyperparameter Tuning with Model
Averaging For Cross-Lingual Transfer [61.455775535559276]
本稿では,ZS-XLTの教師なし評価プロトコルを提案する。
我々は、高レベルセマンティックタスク(NLI、抽出QA)と低レベルトークン分類タスク(NER)の両方について、幅広いZS-XLT実験を行う。
ソースコード検証に基づく従来のモデル選択は,高速にZS-XLTの性能を最適化する。
論文 参考訳(メタデータ) (2023-10-16T15:50:34Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Simple and Effective Gradient-Based Tuning of Sequence-to-Sequence
Models [8.370770440898454]
より大きな言語モデルをトレーニングする膨大なコストは、チューニングを違法に高価にする可能性がある。
本稿では,勾配に基づくハイパーパラメータ最適化をシーケンシャル・ツー・シーケンス・タスクに初めて適用する。
ニューラルネットワーク翻訳と自然言語理解(NLU)の両タスクにおいて,強いベースラインに対する効率性と性能の向上を示す。
論文 参考訳(メタデータ) (2022-09-10T14:52:41Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Surrogate Model Based Hyperparameter Tuning for Deep Learning with SPOT [0.40611352512781856]
本稿では、Keras/tensorflowで実装されたディープラーニングモデルのアーキテクチャレベルのパラメータをどのように最適化できるかを示す。
チューニング手順の実装は、統計コンピューティングのソフトウェア環境であるRに基づいて100%である。
論文 参考訳(メタデータ) (2021-05-30T21:16:51Z) - WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-01T00:41:03Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。