論文の概要: CPET: Effective Parameter-Efficient Tuning for Compressed Large Language
Models
- arxiv url: http://arxiv.org/abs/2307.07705v1
- Date: Sat, 15 Jul 2023 04:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 18:18:00.774526
- Title: CPET: Effective Parameter-Efficient Tuning for Compressed Large Language
Models
- Title(参考訳): cpet:圧縮大言語モデルにおけるパラメータ効率の効果的なチューニング
- Authors: Weilin Zhao, Yuxiang Huang, Xu Han, Zhiyuan Liu, Zhengyan Zhang,
Maosong Sun
- Abstract要約: 圧縮言語モデル(LLM)に基づく効果的なPETフレームワークを提案する。
主流圧縮技術がPET性能に与える影響を評価する。
次に,これらの圧縮技術によって引き起こされる知識損失を回復するために,知識継承と回復戦略を導入する。
- 参考スコア(独自算出の注目度): 89.33330098525477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient tuning (PET) has been widely explored in recent years
because it tunes much fewer parameters (PET modules) than full-parameter
fine-tuning (FT) while still stimulating sufficient knowledge from large
language models (LLMs) for downstream tasks. Moreover, when PET is employed to
serve multiple tasks, different task-specific PET modules can be built on a
frozen LLM, avoiding redundant LLM deployments. Although PET significantly
reduces the cost of tuning and deploying LLMs, its inference still suffers from
the computational bottleneck of LLMs. To address the above issue, we propose an
effective PET framework based on compressed LLMs, named "CPET". In CPET, we
evaluate the impact of mainstream LLM compression techniques on PET performance
and then introduce knowledge inheritance and recovery strategies to restore the
knowledge loss caused by these compression techniques. Our experimental results
demonstrate that, owing to the restoring strategies of CPET, collaborating
task-specific PET modules with a compressed LLM can achieve comparable
performance to collaborating PET modules with the original version of the
compressed LLM and outperform directly applying vanilla PET methods to the
compressed LLM.
- Abstract(参考訳): パラメータ効率チューニング (PET) は, パラメータ (PETモジュール) をフルパラメータ細調整 (FT) よりもはるかに少なく調整できる一方で, 下流タスクのための大規模言語モデル (LLM) からの十分な知識を刺激できるため, 近年広く研究されている。
さらに、複数のタスクにPETを使う場合、異なるタスク固有のPETモジュールを凍結したLCM上に構築することができ、冗長なLCM配置を避けることができる。
PET は LLM のチューニングとデプロイのコストを大幅に削減するが、その推論は LLM の計算ボトルネックに悩まされている。
上記の課題に対処するため, 圧縮LCMをベースとした効果的なPETフレームワーク"CPET"を提案する。
CPETでは,LLM圧縮技術がPET性能に与える影響を評価し,これらの圧縮技術による知識損失を回復するための知識継承と回復戦略を導入する。
実験の結果, CPET の復元戦略により, 圧縮 LLM を用いたタスク固有 PET モジュールの協調作業は, 圧縮 LLM のオリジナルバージョンによる PET モジュールの協調作業に匹敵し, 圧縮 LLM に対してバニラ PET メソッドを直接適用した場合よりも優れることがわかった。
関連論文リスト
- Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead [41.31302904190149]
低ランク適応(LoRA)を用いた微調整型大規模言語モデルが一般的となっている。
本稿では,LoRA固有のスケーリング行列と組み合わせた共有ベースにLoRAを共同圧縮する手法を提案する。
最大500台のLoRAによる実験では、圧縮されたLoRAは大きなスループット向上を提供しながら性能を保っていることが示されている。
論文 参考訳(メタデータ) (2024-06-17T15:21:35Z) - LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report [3.304521604464247]
ローランク適応(ローランク適応、LoRA)は、最も広く採用されている手法の一つである。
大規模言語モデル(LLM)の効率的な微細チューニング(PEFT)
本研究の目的は,LoRAで微調整されたLLMを実世界の応用に適用し,学習の可能性を評価することである。
論文 参考訳(メタデータ) (2024-04-29T04:01:45Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed
Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。
LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。
実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T15:02:46Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - NOLA: Compressing LoRA using Linear Combination of Random Basis [22.76088132446952]
我々は、ロラに存在するランク1の下界を克服するNOLAを導入する。
NOLAは、ランク1のLoRAと比較してパラメータ数がはるかに少ないLoRAモデルと同様に、最高の圧縮LoRAをアーカイブできる。
論文 参考訳(メタデータ) (2023-10-04T03:30:24Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。