論文の概要: HyperTuning: Toward Adapting Large Language Models without
Back-propagation
- arxiv url: http://arxiv.org/abs/2211.12485v1
- Date: Tue, 22 Nov 2022 18:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:33:56.639744
- Title: HyperTuning: Toward Adapting Large Language Models without
Back-propagation
- Title(参考訳): HyperTuning: バックプロパゲーションのない大規模言語モデルへの適応
- Authors: Jason Phang, Yi Mao, Pengcheng He, Weizhu Chen
- Abstract要約: 固定下流モデルのタスク固有パラメータを生成するためにハイパーモデルを用いたモデル適応手法を提案する。
したがってHyperTuningは、さまざまなダウンストリームアプリケーションに大規模な言語モデルを活用するための、柔軟で効率的な方法である。
- 参考スコア(独自算出の注目度): 41.402342404690835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large language models for different tasks can be costly and
inefficient, and even methods that reduce the number of tuned parameters still
require full gradient-based optimization. We propose HyperTuning, a novel
approach to model adaptation that uses a hypermodel to generate task-specific
parameters for a fixed downstream model. We demonstrate a simple setup for
hypertuning with HyperT5, a T5-based hypermodel that produces soft prefixes or
LoRA parameters for a frozen T5 model from few-shot examples. We train HyperT5
in two stages: first, hyperpretraining with a modified conditional language
modeling objective that trains a hypermodel to generate parameters; second,
multi-task fine-tuning (MTF) on a large number of diverse language tasks. We
evaluate HyperT5 on P3, MetaICL and Super-NaturalInstructions datasets, and
show that it can effectively generate parameters for unseen tasks. Moreover, we
show that using hypermodel-generated parameters as initializations for further
parameter-efficient fine-tuning improves performance. HyperTuning can thus be a
flexible and efficient way to leverage large language models for diverse
downstream applications.
- Abstract(参考訳): 異なるタスクのために大きな言語モデルを微調整することはコストと非効率がかかり、チューニングされたパラメータの数を減らすメソッドでさえ、完全な勾配に基づく最適化が必要である。
固定下流モデルのタスク固有パラメータを生成するためにハイパーモデルを用いた新しいモデル適応手法であるHyperTuningを提案する。
少数の例から,凍結したT5モデルに対してソフトプレフィックスやLoRAパラメータを生成する,T5ベースのハイパーモデルであるHyperT5によるハイパーチューニングの簡単なセットアップを示す。
まず、パラメータを生成するためにハイパーモデルをトレーニングする修正された条件付き言語モデリングの目的と、多数の多様な言語タスクでマルチタスクの微調整(MTF)の2つの段階でHyperT5をトレーニングする。
P3, MetaICL および Super-Natural Instructions データセット上で HyperT5 を評価し,未確認タスクのパラメータを効果的に生成可能であることを示す。
さらに,パラメータ効率向上のための初期化としてハイパーモデル生成パラメータを用いると,性能が向上することを示す。
したがってハイパーチューニングは、下流のさまざまなアプリケーションに大規模な言語モデルを活用するための柔軟で効率的な方法である。
関連論文リスト
- Dynamic Subset Tuning: Expanding the Operational Range of Parameter-Efficient Training for Large Language Models [14.762222323897978]
大規模言語モデルのための新しいパラメータ効率訓練法を提案する。
従来の方法とは異なり、このサブセットはロケーションで固定されるのではなく、トレーニングの過程でどのパラメータが修正されるかである。
本手法により, モデル全体の任意の割合で, サブセットサイズをシームレスにスケーリングすることができる。
論文 参考訳(メタデータ) (2024-11-13T13:53:10Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - One For All & All For One: Bypassing Hyperparameter Tuning with Model
Averaging For Cross-Lingual Transfer [61.455775535559276]
本稿では,ZS-XLTの教師なし評価プロトコルを提案する。
我々は、高レベルセマンティックタスク(NLI、抽出QA)と低レベルトークン分類タスク(NER)の両方について、幅広いZS-XLT実験を行う。
ソースコード検証に基づく従来のモデル選択は,高速にZS-XLTの性能を最適化する。
論文 参考訳(メタデータ) (2023-10-16T15:50:34Z) - Simple and Effective Gradient-Based Tuning of Sequence-to-Sequence
Models [8.370770440898454]
より大きな言語モデルをトレーニングする膨大なコストは、チューニングを違法に高価にする可能性がある。
本稿では,勾配に基づくハイパーパラメータ最適化をシーケンシャル・ツー・シーケンス・タスクに初めて適用する。
ニューラルネットワーク翻訳と自然言語理解(NLU)の両タスクにおいて,強いベースラインに対する効率性と性能の向上を示す。
論文 参考訳(メタデータ) (2022-09-10T14:52:41Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Surrogate Model Based Hyperparameter Tuning for Deep Learning with SPOT [0.40611352512781856]
本稿では、Keras/tensorflowで実装されたディープラーニングモデルのアーキテクチャレベルのパラメータをどのように最適化できるかを示す。
チューニング手順の実装は、統計コンピューティングのソフトウェア環境であるRに基づいて100%である。
論文 参考訳(メタデータ) (2021-05-30T21:16:51Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。