論文の概要: LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra-Low-Parameter Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.11417v1
- Date: Sun, 18 Feb 2024 01:20:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:21:49.249681
- Title: LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra-Low-Parameter Fine-Tuning of Large Language Models
- Title(参考訳): LoRETTA:大規模言語モデルの超低パラメータ微調整のための低レベル経済テンソルトレイン適応
- Authors: Yifan Yang, Jiajun Zhou, Ngai Wong, Zheng Zhang
- Abstract要約: モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。
テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。
LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
- 参考スコア(独自算出の注目度): 20.5908375260123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Various parameter-efficient fine-tuning (PEFT) techniques have been proposed
to enable computationally efficient fine-tuning while maintaining model
performance. However, existing PEFT methods are still limited by the growing
number of trainable parameters with the rapid deployment of Large Language
Models (LLMs). To address this challenge, we present LoRETTA, an
ultra-parameter-efficient framework that significantly reduces trainable
parameters through tensor-train decomposition. Specifically, we propose two
methods, named {LoRETTA}$_{adp}$ and {LoRETTA}$_{rep}$. The former employs
tensorized adapters, offering a high-performance yet lightweight approach for
the fine-tuning of LLMs. The latter emphasizes fine-tuning via weight
parameterization with a set of small tensor factors. LoRETTA achieves
comparable or better performance than most widely used PEFT methods with up to
$100\times$ fewer parameters on the LLaMA-2-7B models. Furthermore, empirical
results demonstrate that the proposed method effectively improves training
efficiency, enjoys better multi-task learning performance, and enhances the
anti-overfitting capability. Plug-and-play codes built upon the Huggingface
framework and PEFT library will be released.
- Abstract(参考訳): モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。
しかし、既存のPEFTメソッドは、LLM(Large Language Models)の迅速な展開に伴うトレーニング可能なパラメータの増加によって、依然として制限されている。
この課題に対処するため、テンソル-トレイン分解によりトレーニング可能なパラメータを著しく削減する超パラメータ効率のフレームワークであるLoRETTAを提案する。
具体的には, {LoRETTA}$_{adp}$と {LoRETTA}$_{rep}$という2つの方法を提案する。
前者はテンソル化アダプタを採用し、LLMの微調整に高性能で軽量なアプローチを提供する。
後者は、小さなテンソル因子のセットによる重量パラメータ化による微調整を強調する。
LoRETTAは、LLaMA-2-7Bモデルで最大100\times$より少ないパラメータを持つ、最も広く使われているPEFTメソッドと同等または優れたパフォーマンスを達成する。
さらに,提案手法はトレーニング効率を効果的に向上し,マルチタスク学習性能を向上し,反オーバーフィッティング能力を向上することを示した。
HuggingfaceフレームワークとPEFTライブラリ上に構築されたプラグイン・アンド・プレイコードがリリースされる。
関連論文リスト
- Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [74.58403497789422]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Advancing Parameter Efficiency in Fine-tuning via Representation Editing [43.201368273466365]
我々はRepresentation EDiting(RED)と呼ばれる微細チューニングニューラルモデルに対する新しいアプローチを提案する。
REDは、フルパラメータの微調整に比べて、トレーニング可能なパラメータの数を25,700ドルと大幅に削減する。
注目すべきは、REDが完全なパラメータの微調整に匹敵する、あるいは優れた結果をもたらすことだ。
論文 参考訳(メタデータ) (2024-02-23T08:21:02Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing
Activation Density in Transformers [58.66678571605656]
そこで本研究では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法の有効性を,QLoRA,LoRA,Adapter,Prompt/Prefix TuningなどのPEFT技術を用いて実証する。
提案手法であるDEFTは,RoBERTa$_mathrmLarge上での活性化密度を一定に低減し,最大$boldsymbol50.72%まで低減できることを示す。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - APT: Adaptive Pruning and Tuning Pretrained Language Models for
Efficient Training and Inference [71.39286164015104]
大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
LMのパラメータを適応的にプーンし調整するAPTを導入する。
APTは、LMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。
論文 参考訳(メタデータ) (2024-01-22T18:39:40Z) - Hyperparameter Optimization for Large Language Model Instruction-Tuning [6.743825167463901]
トレーニング済みLLMをブラックボックスとして微調整と検証を行うパイプライン全体について検討する。
本研究では,提案アルゴリズムを用いて高次パラメータの空間を効率的に探索し,チューニングモデルの性能向上と人為的アライメントを実現する。
論文 参考訳(メタデータ) (2023-12-01T22:03:12Z) - DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [14.975436239088312]
ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。
DePTは、いくつかのシナリオにおいて、完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-11T00:02:05Z) - Empirical Analysis of the Strengths and Weaknesses of PEFT Techniques
for LLMs [1.867982979635437]
各種PEFT手法のベンチマークを行い、異なるデータスケールでモデル性能を評価する。
一般的な信念とは対照的に、PEFT手法は低データシナリオにおいて完全なチューニングよりも遅く収束することを実証的に証明する。
さらに,モデルのどの部分を訓練するかを選択的に選択することで,これらのPEFT手法をさらに最適化する。
論文 参考訳(メタデータ) (2023-04-28T17:39:49Z) - AutoPEFT: Automatic Configuration Search for Parameter-Efficient
Fine-Tuning [77.61565726647784]
ニューラルアーキテクチャ検索の進歩により,自動PEFT設定選択のためのAutoPEFTを提案する。
本稿では,AutoPEFTが検出した構成が既存のPEFT法よりも大幅に優れており,FFTと同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-01-28T08:51:23Z) - AdaMix: Mixture-of-Adaptations for Parameter-efficient Model Tuning [112.97430455461097]
本稿では,各トランスフォーマー層に導入される適応モジュールの混合を調整し,PLMの重みの大半を凍結させながら,汎用PEFT法を提案する。
PLMパラメータの0.1-0.2%だけをチューニングすることにより、AdaMix は NLU および NLG のタスクに対して SOTA パラメータ効率の良い微調整およびフルモデル微調整より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-31T16:23:36Z) - When does Parameter-Efficient Transfer Learning Work for Machine
Translation? [8.862707047517913]
以前の研究は、PEFTは機械翻訳(MT)ではうまく機能しないことを示している。
我々は,(1)パラメータ予算,(2)言語ペアの多種多様なセット,(3)事前学習モデルを考慮した,MT用PEFTの総合的な実証的研究を行った。
事前学習モデルが大きいPEFTを用いて、より小さなモデルで完全な微調整を行うことができ、訓練データサイズが小さい場合には、同じ事前学習モデルで完全な微調整を行う。
論文 参考訳(メタデータ) (2022-05-23T12:49:46Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。