論文の概要: Generative Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2312.00700v4
- Date: Mon, 07 Oct 2024 17:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:41:34.071680
- Title: Generative Parameter-Efficient Fine-Tuning
- Title(参考訳): 生成パラメータ効率の良いファインチューニング
- Authors: Chinmay Savadikar, Xi Song, Tianfu Wu,
- Abstract要約: GIFTは、トレーニング済みの重みから直接、レイヤーの微調整された重みを生成することを学習する。
この定式化ブリッジはパラメータ効率の良い微調整および表現微調整を示す。
- 参考スコア(独自算出の注目度): 8.481707805559589
- License:
- Abstract: We present Generative Parameter-Efficient Fine-Tuning (GIFT) for adapting pretrained Transformer backbones on downstream tasks. GIFT learns to generate the fine-tuned weights for a layer directly from its pretrained weights. The GIFT network is parameterized in a minimally-simple way by two linear layers (without bias terms), and is shared by different pretrained layers selected for fine-tuning (e.g., the Query layers), which result in significantly fewer trainable parameters compared to the layer-specific methods like Low-Rank Adapter (LoRA). We also show this formulation bridges parameter-efficient fine-tuning and representation fine-tuning. We perform comprehensive experiments on natural language tasks (commonsense and arithmetic reasoning, instruction tuning, and sequence classification) and computer vision tasks (fine-grained classification). We obtain the best performance and parameter efficiency among baselines on commonsense and arithmetic reasoning, and instruction following using the Llama family of models and on visual recognition benchmarks using Vision Transformers. Notably, compared to LoRA, we obtain 5.7% absolute increase in average accuracy with 14 times reduction of parameters on Commonsense170k using Llama-3 (8B), and 5.4% absolute increase in the win rate with 4 times reduction of parameters using Llama-2 (7B) during instruction tuning. Our GIFT also obtains a slightly higher win rate on instruction tuning than GPT 3.5 (Turbo 1106).
- Abstract(参考訳): 下流タスクに予め訓練されたトランスフォーマーバックボーンを適応させるためのGIFT(Generative Parameter-Efficient Fine-Tuning)を提案する。
GIFTは、トレーニング済みの重みから直接、レイヤーの微調整された重みを生成することを学習する。
GIFTネットワークは2つの線形層(バイアス項なしで)で最小限の単純な方法でパラメータ化され、微調整(例えばクエリ層)のために選択された様々な事前訓練された層によって共有される。
また、この定式化ブリッジはパラメータ効率の良い微調整および表現微調整を行う。
我々は、自然言語タスク(常識、算術的推論、命令チューニング、シーケンス分類)とコンピュータビジョンタスク(きめ細かい分類)に関する総合的な実験を行う。
我々は,コモンセンスと算術的推論に基づくベースラインと,モデルLlamaファミリと視覚情報変換器を用いた視覚認識ベンチマークに基づく命令の学習において,最高の性能とパラメータ効率を得る。
特にLoRAと比較して,Llama-3 (8B) を用いたCommonsense170kのパラメータの14倍のパラメータの絶対値増加と,Llama-2 (7B) を用いたパラメータの4倍の絶対値増加率5.4%の絶対値増加が得られる。
また,GPT 3.5 (Turbo 1106) よりも命令調律の勝利率が若干高い。
関連論文リスト
- Parameter-Efficient Fine-Tuning with Discrete Fourier Transform [26.563344030824414]
ローランク適応(LoRA)は近年、微調整基礎モデルに多くの関心を集めている。
デルタW$を空間領域の行列として扱い、そのスペクトル係数のごく一部しか学習しないフーリエFTを導入する。
提案手法は,様々なタスクにおいてLoRAよりも少ないパラメータで同等あるいは優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-05T17:15:24Z) - AFLoRA: Adaptive Freezing of Low Rank Adaptation in Parameter Efficient Fine-Tuning of Large Models [5.981614673186146]
私たちは小説を提示する。
-PEFT(Adaptive Freezing of Low Rank Adaptation)法
具体的には、トレーニング可能な低ランク行列の平行経路、すなわち、ダウンプロジェクションとアッププロジェクション行列を加え、それぞれに特徴変換ベクトルが続く。
実験結果から,GLUEベンチマークで評価した結果,平均値0.85%以上の改善を達成できることが確認された。
論文 参考訳(メタデータ) (2024-03-20T03:07:50Z) - Asymmetry in Low-Rank Adapters of Foundation Models [47.310550805920585]
本稿では、低ランクアダプタ行列の重要性において、予期せぬ非対称性を特徴付け、活用する。
我々は、細調整の$B$が、細調整の$A$よりも本質的に効果的であることを示し、ランダムな未トレーニングの$A$は、細調整の$A$よりもほぼ同等に機能することを示します。
論文 参考訳(メタデータ) (2024-02-26T18:59:12Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - $\mathcal{Y}$-Tuning: An Efficient Tuning Paradigm for Large-Scale
Pre-Trained Models via Label Representation Learning [47.742220473129684]
$mathcalY$-tuningは、与えられたタスクで定義されたラベルの密度の高い表現を学び、それらを固定された特徴表現に調整する。
1.6億のパラメータを持つ$textDeBERTa_textXXL$の場合、$mathcalY$-tuningはGLUE Benchmarkの完全な微調整の96%以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-20T13:49:34Z) - BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。
提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文 参考訳(メタデータ) (2021-10-18T17:35:41Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。