論文の概要: LoRAShear: Efficient Large Language Model Structured Pruning and
Knowledge Recovery
- arxiv url: http://arxiv.org/abs/2310.18356v2
- Date: Tue, 31 Oct 2023 04:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 21:45:57.590137
- Title: LoRAShear: Efficient Large Language Model Structured Pruning and
Knowledge Recovery
- Title(参考訳): LoRAShear: 効率的な大規模言語モデルの構築と知識回復
- Authors: Tianyi Chen, Tianyu Ding, Badal Yadav, Ilya Zharkov, Luming Liang
- Abstract要約: 大規模言語モデル(LLM)は、人工知能の景観を変革した。
LLMを構造化し、知識を回復するための新しい効率的なアプローチであるLoRAShearを紹介する。
LoRAShear は LLM のフットプリントを 20% 削減した。
- 参考スコア(独自算出の注目度): 42.018731237153446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have transformed the landscape of artificial
intelligence, while their enormous size presents significant challenges in
terms of computational costs. We introduce LoRAShear, a novel efficient
approach to structurally prune LLMs and recover knowledge. Given general LLMs,
LoRAShear at first creates the dependency graphs over LoRA modules to discover
minimally removal structures and analyze the knowledge distribution. It then
proceeds progressive structured pruning on LoRA adaptors and enables inherent
knowledge transfer to better preserve the information in the redundant
structures. To recover the lost knowledge during pruning, LoRAShear
meticulously studies and proposes a dynamic fine-tuning schemes with dynamic
data adaptors to effectively narrow down the performance gap to the full
models. Numerical results demonstrate that by only using one GPU within a
couple of GPU days, LoRAShear effectively reduced footprint of LLMs by 20% with
only 1.0% performance degradation and significantly outperforms
state-of-the-arts. The source code will be available at
https://github.com/microsoft/lorashear.
- Abstract(参考訳): 大規模言語モデル(LLM)は人工知能の景観を変革し、その巨大なサイズは計算コストの面で大きな課題を呈している。
LLMを構造化し、知識を回復するための新しい効率的なアプローチであるLoRAShearを紹介する。
一般的なLLMが与えられた後、LoRAShearはLoRAモジュール上の依存グラフを作成し、最小限の除去構造を発見し、知識分布を分析する。
その後、LoRAアダプタ上でプログレッシブな構造化プルーニングを行い、冗長な構造の情報をよりよく保存するために固有の知識伝達を可能にする。
刈り取り中に失われた知識を回復するため,lorashearは細心の注意を払って研究を行い,動的データ適応器を用いた動的微調整スキームを提案する。
数値的な結果は、GPU数日で1つのGPUだけを使用することで、LRAShearはパフォーマンスが1.0%しか低下せず、LLMのフットプリントを20%削減し、最先端技術よりも大幅に向上したことを示している。
ソースコードはhttps://github.com/microsoft/lorashearで入手できる。
関連論文リスト
- How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。
これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文 参考訳(メタデータ) (2025-02-20T12:31:03Z) - DReSS: Data-driven Regularized Structured Streamlining for Large Language Models [30.47317140878219]
大規模言語モデル(LLM)は、様々な領域で大きな進歩を遂げているが、その規模が大きくなると高い計算とメモリコストがもたらされる。
本稿では,まず正規化,次にプーン,そして最後に微細構造を適用する新しいパラダイムを提案する。
プルーニングされるコンポーネントを正規化するために少量のデータを活用することで、DReSSは、重要な情報をモデルの残りの部分に前もって明示的に転送する。
論文 参考訳(メタデータ) (2025-01-29T14:28:11Z) - Less is More: Towards Green Code Large Language Models via Unified Structural Pruning [27.428983811427827]
語彙, 層, フィードフォワードネットワーク(FFN)プルーニングを組み合わせた, 革新的な統一的構造解析手法であるFlap-Prunerを提案する。
その結果、Flap-Prunerはパラメータの22%をプルーニングした後、元のパフォーマンスの97%を維持し、トレーニング後と同じあるいはそれ以上のパフォーマンスを達成していることがわかった。
論文 参考訳(メタデータ) (2024-12-20T14:13:09Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - A Closer Look at the Limitations of Instruction Tuning [52.587607091917214]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)における知識やスキルの向上に失敗することを示す。
また、一般的なIT改善手法は、シンプルなLoRA微調整モデルよりも性能改善につながるものではないことも示している。
この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-02-03T04:45:25Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models
via MoE-Style Plugin [85.16356890023582]
ルータネットワークを用いてローランクアダプタ(LoRA)を複数導入し,それらを統合する新しいフレームワークであるLoRAMoEを提案する。
バックボーンモデルを凍結し、LoRAの一部をダウンストリームタスクの解決に世界の知識を活用することに集中させます。
実験の結果、命令データが増加するにつれて、LoRAMoEは下流タスクの処理能力を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-15T17:45:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。