論文の概要: SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2402.11896v1
- Date: Mon, 19 Feb 2024 07:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 17:51:30.836216
- Title: SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning
- Title(参考訳): SIBO:パラメータ効率の良いファインチューニングのための簡易ブースタ
- Authors: Zhihao Wen, Jie Zhang, Yuan Fang
- Abstract要約: 初期残基を注入することによりPEFTを増強するSimple BOosterであるSIBOを提案する。
22のベンチマークデータセットに対する大規模な実験により、SIBOは様々な強力なベースラインの性能を著しく向上させ、算術および常識推論タスクにおける既存のPEFTメソッドよりも最大15.7%、23.5%向上した。
- 参考スコア(独自算出の注目度): 11.745775952171607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning all parameters of large language models (LLMs) necessitates
substantial computational power and extended time. Latest advancements in
parameter-efficient fine-tuning (PEFT) techniques, such as Adapter tuning and
LoRA, allow for adjustments to only a minor fraction of the parameters of these
LLMs. Concurrently, it has been noted that the issue of over-smoothing
diminishes the effectiveness of these Transformer-based LLMs, resulting in
suboptimal performances in downstream tasks. In this paper, we present SIBO,
which is a SImple BOoster to enhance PEFT, by injecting an initial residual.
SIBO is straight-forward and readily extensible to a range of state-of-the-art
PEFT techniques to alleviate over-smoothing and enhance performance. Extensive
experiments on 22 benchmark datasets demonstrate that SIBO significantly
enhances the performance of various strong baselines, achieving up to 15.7% and
23.5% improvement over existing PEFT methods on the arithmetic and commonsense
reasoning tasks, respectively.
- Abstract(参考訳): 大規模言語モデル(llm)の全てのパラメータを微調整するには、かなりの計算能力と時間を要する。
アダプタチューニングやloraなど、パラメータ効率の良いファインチューニング(peft)技術における最新の進歩により、これらのllmのパラメータのごく一部しか調整できない。
同時に、過度なスムース化の問題は、これらのトランスフォーマーベースのLCMの有効性を低下させ、下流タスクにおける準最適性能をもたらすことが指摘されている。
本稿では,初期残余を注入することによってPEFTを増強するSIBOについて述べる。
SIBOは、過度な平滑化を緩和し、性能を高めるために、最先端のPEFT技術に容易に拡張できる。
22のベンチマークデータセットに対する大規模な実験により、SIBOは様々な強力なベースラインの性能を著しく向上させ、算術および常識推論タスクにおける既存のPEFTメソッドよりも最大15.7%、23.5%向上した。
関連論文リスト
- BESA: Pruning Large Language Models with Blockwise Parameter-Efficient
Sparsity Allocation [56.32997656670112]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
BESAは最先端のパフォーマンスを実現し、たった5時間で単一のA100 GPU上で7Bから70Bパラメータを持つLLaMA1やLLaMA2のようなLLMを効率よく刈り取る
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。
テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。
LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文 参考訳(メタデータ) (2024-02-18T01:20:00Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing
Activation Density in Transformers [58.66678571605656]
そこで本研究では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法の有効性を,QLoRA,LoRA,Adapter,Prompt/Prefix TuningなどのPEFT技術を用いて実証する。
提案手法であるDEFTは,RoBERTa$_mathrmLarge上での活性化密度を一定に低減し,最大$boldsymbol50.72%まで低減できることを示す。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - APT: Adaptive Pruning and Tuning Pretrained Language Models for
Efficient Training and Inference [71.39286164015104]
大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
LMのパラメータを適応的にプーンし調整するAPTを導入する。
APTは、LMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。
論文 参考訳(メタデータ) (2024-01-22T18:39:40Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。