Fugu-MT 論文翻訳(概要): HyperTuning: Toward Adapting Large Language Models without Back-propagation

論文の概要: HyperTuning: Toward Adapting Large Language Models without Back-propagation

arxiv url: http://arxiv.org/abs/2211.12485v1
Date: Tue, 22 Nov 2022 18:52:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 17:33:56.639744
Title: HyperTuning: Toward Adapting Large Language Models without Back-propagation
Title（参考訳）: HyperTuning: バックプロパゲーションのない大規模言語モデルへの適応
Authors: Jason Phang, Yi Mao, Pengcheng He, Weizhu Chen
Abstract要約: 固定下流モデルのタスク固有パラメータを生成するためにハイパーモデルを用いたモデル適応手法を提案する。したがってHyperTuningは、さまざまなダウンストリームアプリケーションに大規模な言語モデルを活用するための、柔軟で効率的な方法である。
参考スコア（独自算出の注目度）: 41.402342404690835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning large language models for different tasks can be costly and inefficient, and even methods that reduce the number of tuned parameters still require full gradient-based optimization. We propose HyperTuning, a novel approach to model adaptation that uses a hypermodel to generate task-specific parameters for a fixed downstream model. We demonstrate a simple setup for hypertuning with HyperT5, a T5-based hypermodel that produces soft prefixes or LoRA parameters for a frozen T5 model from few-shot examples. We train HyperT5 in two stages: first, hyperpretraining with a modified conditional language modeling objective that trains a hypermodel to generate parameters; second, multi-task fine-tuning (MTF) on a large number of diverse language tasks. We evaluate HyperT5 on P3, MetaICL and Super-NaturalInstructions datasets, and show that it can effectively generate parameters for unseen tasks. Moreover, we show that using hypermodel-generated parameters as initializations for further parameter-efficient fine-tuning improves performance. HyperTuning can thus be a flexible and efficient way to leverage large language models for diverse downstream applications.
Abstract（参考訳）: 異なるタスクのために大きな言語モデルを微調整することはコストと非効率がかかり、チューニングされたパラメータの数を減らすメソッドでさえ、完全な勾配に基づく最適化が必要である。固定下流モデルのタスク固有パラメータを生成するためにハイパーモデルを用いた新しいモデル適応手法であるHyperTuningを提案する。少数の例から,凍結したT5モデルに対してソフトプレフィックスやLoRAパラメータを生成する,T5ベースのハイパーモデルであるHyperT5によるハイパーチューニングの簡単なセットアップを示す。まず、パラメータを生成するためにハイパーモデルをトレーニングする修正された条件付き言語モデリングの目的と、多数の多様な言語タスクでマルチタスクの微調整(MTF)の2つの段階でHyperT5をトレーニングする。 P3, MetaICL および Super-Natural Instructions データセット上で HyperT5 を評価し,未確認タスクのパラメータを効果的に生成可能であることを示す。さらに,パラメータ効率向上のための初期化としてハイパーモデル生成パラメータを用いると,性能が向上することを示す。したがってハイパーチューニングは、下流のさまざまなアプリケーションに大規模な言語モデルを活用するための柔軟で効率的な方法である。

関連論文リスト

Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
Hyper Compressed Fine-Tuning of Large Foundation Models with Quantum Inspired Adapters [0.0]
emphQuantum-Inspired Adaptersは、量子機械学習文学のハミング級量子回路にインスパイアされたPEFTアプローチである。提案するアダプタは,ベンチマークデータセットに大規模言語モデルと大規模視覚変換器を適用して検証する。
論文参考訳（メタデータ） (2025-02-10T13:06:56Z)
Dynamic Subset Tuning: Expanding the Operational Range of Parameter-Efficient Training for Large Language Models [14.762222323897978]
大規模言語モデルのための新しいパラメータ効率訓練法を提案する。従来の方法とは異なり、このサブセットはロケーションで固定されるのではなく、トレーニングの過程でどのパラメータが修正されるかである。本手法により, モデル全体の任意の割合で, サブセットサイズをシームレスにスケーリングすることができる。
論文参考訳（メタデータ） (2024-11-13T13:53:10Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文参考訳（メタデータ） (2024-05-30T17:26:02Z)
One For All & All For One: Bypassing Hyperparameter Tuning with Model Averaging For Cross-Lingual Transfer [61.455775535559276]
本稿では,ZS-XLTの教師なし評価プロトコルを提案する。我々は、高レベルセマンティックタスク(NLI、抽出QA)と低レベルトークン分類タスク(NER)の両方について、幅広いZS-XLT実験を行う。ソースコード検証に基づく従来のモデル選択は,高速にZS-XLTの性能を最適化する。
論文参考訳（メタデータ） (2023-10-16T15:50:34Z)
Simple and Effective Gradient-Based Tuning of Sequence-to-Sequence Models [8.370770440898454]
より大きな言語モデルをトレーニングする膨大なコストは、チューニングを違法に高価にする可能性がある。本稿では,勾配に基づくハイパーパラメータ最適化をシーケンシャル・ツー・シーケンス・タスクに初めて適用する。ニューラルネットワーク翻訳と自然言語理解(NLU)の両タスクにおいて,強いベースラインに対する効率性と性能の向上を示す。
論文参考訳（メタデータ） (2022-09-10T14:52:41Z)
AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文参考訳（メタデータ） (2022-03-15T19:25:01Z)
Surrogate Model Based Hyperparameter Tuning for Deep Learning with SPOT [0.40611352512781856]
本稿では、Keras/tensorflowで実装されたディープラーニングモデルのアーキテクチャレベルのパラメータをどのように最適化できるかを示す。チューニング手順の実装は、統計コンピューティングのソフトウェア環境であるRに基づいて100%である。
論文参考訳（メタデータ） (2021-05-30T21:16:51Z)
Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。 5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文参考訳（メタデータ） (2020-04-08T06:18:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。