論文の概要: LoRAShear: Efficient Large Language Model Structured Pruning and
Knowledge Recovery
- arxiv url: http://arxiv.org/abs/2310.18356v2
- Date: Tue, 31 Oct 2023 04:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 21:45:57.590137
- Title: LoRAShear: Efficient Large Language Model Structured Pruning and
Knowledge Recovery
- Title(参考訳): LoRAShear: 効率的な大規模言語モデルの構築と知識回復
- Authors: Tianyi Chen, Tianyu Ding, Badal Yadav, Ilya Zharkov, Luming Liang
- Abstract要約: 大規模言語モデル(LLM)は、人工知能の景観を変革した。
LLMを構造化し、知識を回復するための新しい効率的なアプローチであるLoRAShearを紹介する。
LoRAShear は LLM のフットプリントを 20% 削減した。
- 参考スコア(独自算出の注目度): 42.018731237153446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have transformed the landscape of artificial
intelligence, while their enormous size presents significant challenges in
terms of computational costs. We introduce LoRAShear, a novel efficient
approach to structurally prune LLMs and recover knowledge. Given general LLMs,
LoRAShear at first creates the dependency graphs over LoRA modules to discover
minimally removal structures and analyze the knowledge distribution. It then
proceeds progressive structured pruning on LoRA adaptors and enables inherent
knowledge transfer to better preserve the information in the redundant
structures. To recover the lost knowledge during pruning, LoRAShear
meticulously studies and proposes a dynamic fine-tuning schemes with dynamic
data adaptors to effectively narrow down the performance gap to the full
models. Numerical results demonstrate that by only using one GPU within a
couple of GPU days, LoRAShear effectively reduced footprint of LLMs by 20% with
only 1.0% performance degradation and significantly outperforms
state-of-the-arts. The source code will be available at
https://github.com/microsoft/lorashear.
- Abstract(参考訳): 大規模言語モデル(LLM)は人工知能の景観を変革し、その巨大なサイズは計算コストの面で大きな課題を呈している。
LLMを構造化し、知識を回復するための新しい効率的なアプローチであるLoRAShearを紹介する。
一般的なLLMが与えられた後、LoRAShearはLoRAモジュール上の依存グラフを作成し、最小限の除去構造を発見し、知識分布を分析する。
その後、LoRAアダプタ上でプログレッシブな構造化プルーニングを行い、冗長な構造の情報をよりよく保存するために固有の知識伝達を可能にする。
刈り取り中に失われた知識を回復するため,lorashearは細心の注意を払って研究を行い,動的データ適応器を用いた動的微調整スキームを提案する。
数値的な結果は、GPU数日で1つのGPUだけを使用することで、LRAShearはパフォーマンスが1.0%しか低下せず、LLMのフットプリントを20%削減し、最先端技術よりも大幅に向上したことを示している。
ソースコードはhttps://github.com/microsoft/lorashearで入手できる。
関連論文リスト
- LoRA Unlearns More and Retains More (Student Abstract) [0.0]
PruneLoRAは、モデルに低ランクの更新を適用することで、大規模なパラメータ更新の必要性を減らす。
そこで我々はLoRAを利用してプルーンドモデルのパラメータのサブセットを選択的に修正し、計算コスト、メモリ要件を低減し、残りのクラスの性能を維持するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-11-16T16:47:57Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - A Closer Look at the Limitations of Instruction Tuning [52.587607091917214]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)における知識やスキルの向上に失敗することを示す。
また、一般的なIT改善手法は、シンプルなLoRA微調整モデルよりも性能改善につながるものではないことも示している。
この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-02-03T04:45:25Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models
via MoE-Style Plugin [85.16356890023582]
ルータネットワークを用いてローランクアダプタ(LoRA)を複数導入し,それらを統合する新しいフレームワークであるLoRAMoEを提案する。
バックボーンモデルを凍結し、LoRAの一部をダウンストリームタスクの解決に世界の知識を活用することに集中させます。
実験の結果、命令データが増加するにつれて、LoRAMoEは下流タスクの処理能力を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-15T17:45:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Efficient shallow learning as an alternative to deep learning [0.0]
一般化された浅層LeNetアーキテクチャの誤差率は5層に過ぎず,第1畳み込み層におけるフィルタ数に比例して減衰することを示した。
同様の指数を持つ電力法則も一般化されたVGG-16アーキテクチャを特徴付けている。
畳み込み層に沿った保存法則は、その大きさの深さの平方根であり、誤り率を最小化する。
論文 参考訳(メタデータ) (2022-11-15T10:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。