Fugu-MT 論文翻訳(概要): LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery

論文の概要: LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery

arxiv url: http://arxiv.org/abs/2310.18356v2
Date: Tue, 31 Oct 2023 04:21:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 21:45:57.590137
Title: LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery
Title（参考訳）: LoRAShear: 効率的な大規模言語モデルの構築と知識回復
Authors: Tianyi Chen, Tianyu Ding, Badal Yadav, Ilya Zharkov, Luming Liang
Abstract要約: 大規模言語モデル(LLM)は、人工知能の景観を変革した。 LLMを構造化し、知識を回復するための新しい効率的なアプローチであるLoRAShearを紹介する。 LoRAShear は LLM のフットプリントを 20% 削減した。
参考スコア（独自算出の注目度）: 42.018731237153446
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have transformed the landscape of artificial intelligence, while their enormous size presents significant challenges in terms of computational costs. We introduce LoRAShear, a novel efficient approach to structurally prune LLMs and recover knowledge. Given general LLMs, LoRAShear at first creates the dependency graphs over LoRA modules to discover minimally removal structures and analyze the knowledge distribution. It then proceeds progressive structured pruning on LoRA adaptors and enables inherent knowledge transfer to better preserve the information in the redundant structures. To recover the lost knowledge during pruning, LoRAShear meticulously studies and proposes a dynamic fine-tuning schemes with dynamic data adaptors to effectively narrow down the performance gap to the full models. Numerical results demonstrate that by only using one GPU within a couple of GPU days, LoRAShear effectively reduced footprint of LLMs by 20% with only 1.0% performance degradation and significantly outperforms state-of-the-arts. The source code will be available at https://github.com/microsoft/lorashear.
Abstract（参考訳）: 大規模言語モデル(LLM)は人工知能の景観を変革し、その巨大なサイズは計算コストの面で大きな課題を呈している。 LLMを構造化し、知識を回復するための新しい効率的なアプローチであるLoRAShearを紹介する。一般的なLLMが与えられた後、LoRAShearはLoRAモジュール上の依存グラフを作成し、最小限の除去構造を発見し、知識分布を分析する。その後、LoRAアダプタ上でプログレッシブな構造化プルーニングを行い、冗長な構造の情報をよりよく保存するために固有の知識伝達を可能にする。刈り取り中に失われた知識を回復するため,lorashearは細心の注意を払って研究を行い,動的データ適応器を用いた動的微調整スキームを提案する。数値的な結果は、GPU数日で1つのGPUだけを使用することで、LRAShearはパフォーマンスが1.0%しか低下せず、LLMのフットプリントを20%削減し、最先端技術よりも大幅に向上したことを示している。ソースコードはhttps://github.com/microsoft/lorashearで入手できる。

関連論文リスト

How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文参考訳（メタデータ） (2025-02-20T12:31:03Z)
DReSS: Data-driven Regularized Structured Streamlining for Large Language Models [30.47317140878219]
大規模言語モデル(LLM)は、様々な領域で大きな進歩を遂げているが、その規模が大きくなると高い計算とメモリコストがもたらされる。本稿では,まず正規化,次にプーン,そして最後に微細構造を適用する新しいパラダイムを提案する。プルーニングされるコンポーネントを正規化するために少量のデータを活用することで、DReSSは、重要な情報をモデルの残りの部分に前もって明示的に転送する。
論文参考訳（メタデータ） (2025-01-29T14:28:11Z)
Less is More: Towards Green Code Large Language Models via Unified Structural Pruning [27.428983811427827]
語彙, 層, フィードフォワードネットワーク(FFN)プルーニングを組み合わせた, 革新的な統一的構造解析手法であるFlap-Prunerを提案する。その結果、Flap-Prunerはパラメータの22%をプルーニングした後、元のパフォーマンスの97%を維持し、トレーニング後と同じあるいはそれ以上のパフォーマンスを達成していることがわかった。
論文参考訳（メタデータ） (2024-12-20T14:13:09Z)
LoRA Unlearns More and Retains More (Student Abstract) [0.0]
PruneLoRAは、モデルに低ランクの更新を適用することで、大規模なパラメータ更新の必要性を減らす。そこで我々はLoRAを利用してプルーンドモデルのパラメータのサブセットを選択的に修正し、計算コスト、メモリ要件を低減し、残りのクラスの性能を維持するモデルの能力を向上させる。
論文参考訳（メタデータ） (2024-11-16T16:47:57Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文参考訳（メタデータ） (2024-06-24T08:43:21Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
A Closer Look at the Limitations of Instruction Tuning [52.587607091917214]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)における知識やスキルの向上に失敗することを示す。また、一般的なIT改善手法は、シンプルなLoRA微調整モデルよりも性能改善につながるものではないことも示している。この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
論文参考訳（メタデータ） (2024-02-03T04:45:25Z)
Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-01-08T14:26:49Z)
LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models via MoE-Style Plugin [85.16356890023582]
ルータネットワークを用いてローランクアダプタ(LoRA)を複数導入し,それらを統合する新しいフレームワークであるLoRAMoEを提案する。バックボーンモデルを凍結し、LoRAの一部をダウンストリームタスクの解決に世界の知識を活用することに集中させます。実験の結果、命令データが増加するにつれて、LoRAMoEは下流タスクの処理能力を大幅に改善できることがわかった。
論文参考訳（メタデータ） (2023-12-15T17:45:06Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Efficient shallow learning as an alternative to deep learning [0.0]
一般化された浅層LeNetアーキテクチャの誤差率は5層に過ぎず,第1畳み込み層におけるフィルタ数に比例して減衰することを示した。同様の指数を持つ電力法則も一般化されたVGG-16アーキテクチャを特徴付けている。畳み込み層に沿った保存法則は、その大きさの深さの平方根であり、誤り率を最小化する。
論文参考訳（メタデータ） (2022-11-15T10:10:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。