論文の概要: Propulsion: Steering LLM with Tiny Fine-Tuning
- arxiv url: http://arxiv.org/abs/2409.10927v2
- Date: Wed, 18 Sep 2024 07:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 12:04:00.623900
- Title: Propulsion: Steering LLM with Tiny Fine-Tuning
- Title(参考訳): 推進:ティニーファインチューニング付きステアリングLDM
- Authors: Md Kowsher, Nusrat Jahan Prottasha, Prakash Bhat,
- Abstract要約: 本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。
物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。
我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancements in Large Language Models (LLMs) have revolutionized natural language processing (NLP) and related fields. However, fine-tuning these models for specific tasks remains computationally expensive and risks degrading pre-learned features. To address these challenges, we propose Propulsion, a novel parameter efficient fine-tuning (PEFT) method designed to optimize task-specific performance while drastically reducing computational overhead. Inspired by the concept of controlled adjustments in physical motion, Propulsion selectively re-scales specific dimensions of a pre-trained model, guiding output predictions toward task objectives without modifying the model's parameters. By introducing lightweight, trainable Propulsion parameters at the pre-trained layer, we minimize the number of parameters updated during fine-tuning, preventing overfitting or overwriting of existing knowledge. Our theoretical analysis, supported by Neural Tangent Kernel (NTK) theory, shows that Propulsion approximates the performance of full fine-tuning with far fewer trainable parameters. Empirically, Propulsion reduces the parameter count from 355.3 million to just 0.086 million, achieving over a 10x reduction compared to standard approaches like LoRA while maintaining competitive performance across benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、自然言語処理(NLP)とその関連分野に革命をもたらした。
しかし、これらのモデルを特定のタスクのために微調整することは、計算的に高価であり、事前学習された特徴を劣化させるリスクがある。
これらの課題に対処するために,計算オーバーヘッドを大幅に削減しつつ,タスク固有の性能を最適化する新しいパラメータ効率的な微調整法であるPropulsionを提案する。
物理運動の制御調整の概念に触発されて、Propulsionは、事前訓練されたモデルの特定の次元を選択的に再スケールし、モデルのパラメータを変更することなく、タスク目標に向けて出力予測を誘導する。
事前学習層に軽量で訓練可能な推進パラメータを導入することで、微調整時に更新されるパラメータの数を最小化し、既存の知識の過度な適合や上書きを防止する。
我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
実証的に、Propulsionはパラメータ数を355.3百万から0.086百万に減らし、ベンチマーク間の競争性能を維持しながら、LoRAのような標準的なアプローチに比べて10倍の削減を実現している。
関連論文リスト
- Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability [73.34532767873785]
本稿では,行列が特定の特徴空間に強く属しているかを示すために,情報密度(ID)の概念を提案する。
Dense Information Prompt (DIP)を導入し、情報密度を高め、一般化を改善する。
DIPは、調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [37.265708531464746]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。
これらのトレーニング済みモデルを下流データセットに微調整することで、さらなる大幅なパフォーマンス向上が達成されるが、このプロセスは異常なリソース要求のために困難だった。
性能を損なうことなくメモリ効率のよい微調整を可能にするLLMのための新しい量子フルパラメータチューニングフレームワークQFTを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:47:40Z) - Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for
Parameter-Efficient BERT [6.029590006321152]
本稿では、下流タスクのための感度駆動効率の良いBERTモデルの微調整であるSensi-BERTを提案する。
実験の結果,MNLI,QQP,QNLI,SST-2,SQuADなどの下流タスクに対するSensi-BERTの有効性が示された。
論文 参考訳(メタデータ) (2023-07-14T17:24:15Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文 参考訳(メタデータ) (2022-10-08T00:36:00Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。