論文の概要: SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2402.11896v1
- Date: Mon, 19 Feb 2024 07:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 17:51:30.836216
- Title: SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning
- Title(参考訳): SIBO:パラメータ効率の良いファインチューニングのための簡易ブースタ
- Authors: Zhihao Wen, Jie Zhang, Yuan Fang
- Abstract要約: 初期残基を注入することによりPEFTを増強するSimple BOosterであるSIBOを提案する。
22のベンチマークデータセットに対する大規模な実験により、SIBOは様々な強力なベースラインの性能を著しく向上させ、算術および常識推論タスクにおける既存のPEFTメソッドよりも最大15.7%、23.5%向上した。
- 参考スコア(独自算出の注目度): 11.745775952171607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning all parameters of large language models (LLMs) necessitates
substantial computational power and extended time. Latest advancements in
parameter-efficient fine-tuning (PEFT) techniques, such as Adapter tuning and
LoRA, allow for adjustments to only a minor fraction of the parameters of these
LLMs. Concurrently, it has been noted that the issue of over-smoothing
diminishes the effectiveness of these Transformer-based LLMs, resulting in
suboptimal performances in downstream tasks. In this paper, we present SIBO,
which is a SImple BOoster to enhance PEFT, by injecting an initial residual.
SIBO is straight-forward and readily extensible to a range of state-of-the-art
PEFT techniques to alleviate over-smoothing and enhance performance. Extensive
experiments on 22 benchmark datasets demonstrate that SIBO significantly
enhances the performance of various strong baselines, achieving up to 15.7% and
23.5% improvement over existing PEFT methods on the arithmetic and commonsense
reasoning tasks, respectively.
- Abstract(参考訳): 大規模言語モデル(llm)の全てのパラメータを微調整するには、かなりの計算能力と時間を要する。
アダプタチューニングやloraなど、パラメータ効率の良いファインチューニング(peft)技術における最新の進歩により、これらのllmのパラメータのごく一部しか調整できない。
同時に、過度なスムース化の問題は、これらのトランスフォーマーベースのLCMの有効性を低下させ、下流タスクにおける準最適性能をもたらすことが指摘されている。
本稿では,初期残余を注入することによってPEFTを増強するSIBOについて述べる。
SIBOは、過度な平滑化を緩和し、性能を高めるために、最先端のPEFT技術に容易に拡張できる。
22のベンチマークデータセットに対する大規模な実験により、SIBOは様々な強力なベースラインの性能を著しく向上させ、算術および常識推論タスクにおける既存のPEFTメソッドよりも最大15.7%、23.5%向上した。
関連論文リスト
- Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models [24.62337386603331]
大規模マルチモーダルモデル(LMM)は、機械が世界と対話する方法に革命をもたらしている。
下流タスクにLMMを適用するために,パラメータ効率細調整(PEFT)が普及している。
本稿では,各チューニング戦略の長所と短所に着目し,これらのアプローチに典型的な効率性から焦点を移す。
論文 参考訳(メタデータ) (2024-10-29T07:55:50Z) - BIPEFT: Budget-Guided Iterative Search for Parameter Efficient Fine-Tuning of Large Pretrained Language Models [63.52035708182815]
自動PEFT(BIPEFT)のための新しいBudget-Guided Iterative Search戦略を提案する。
BIPEFTはバイナリモジュールとランク次元検索空間をアンタングルするために,新たな反復探索方式を採用している。
公開ベンチマークの大規模な実験は、パラメータ予算の低い下流タスクにおいて、BIPEFTの優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T18:50:46Z) - Light-PEFT: Lightening Parameter-Efficient Fine-Tuning via Early Pruning [17.032155725171958]
本稿では,基礎モデルの仮設初期計画とPEFTの多官能初期計画の2つの手法を含むLight-PEFTフレームワークを提案する。
PEFT法を直接利用するのに対し、Light-PEFTはトレーニングと推論の高速化を実現し、メモリ使用量を削減し、同等のパフォーマンスを維持する。
論文 参考訳(メタデータ) (2024-06-06T07:03:29Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Advancing Parameter Efficiency in Fine-tuning via Representation Editing [41.81020951061438]
我々はRepresentation EDiting (RED)というニューラルモデルのための新しい微調整手法を提案する。
REDは、スケーリングとバイアス処理の適用を通じて、いくつかのレイヤで生成された表現を修正します。
注目すべきは、REDは完全なパラメータの微調整と他のPEFT手法に匹敵する、あるいは優れている結果を達成することである。
論文 参考訳(メタデータ) (2024-02-23T08:21:02Z) - LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。
テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。
LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文 参考訳(メタデータ) (2024-02-18T01:20:00Z) - APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference [63.52244442498831]
大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
LMのパラメータを適応的にプーンし調整するAPTを導入する。
APTは、LMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。
論文 参考訳(メタデータ) (2024-01-22T18:39:40Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。