論文の概要: RankAdaptor: Hierarchical Dynamic Low-Rank Adaptation for Structural Pruned LLMs
- arxiv url: http://arxiv.org/abs/2406.15734v1
- Date: Sat, 22 Jun 2024 04:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:54:52.658630
- Title: RankAdaptor: Hierarchical Dynamic Low-Rank Adaptation for Structural Pruned LLMs
- Title(参考訳): RankAdaptor: 階層型動的低ランク適応による構造解析
- Authors: Changhai Zhou, Shijie Han, Shiyang Zhang, Shichao Weng, Zekai Liu, Cheng Jin,
- Abstract要約: 本稿では,階層的動的階数スケジューリングを併用した効率的な微調整手法であるRandAdaptorを紹介する。
RankAdaptorは、異なるプルーニング設定に対して構造的なプルーニングで標準のLoRAを一貫して上回っている。
トレーニング可能なパラメータを増やすことなく、RandAdaptorはプルーンドモデルと元のモデルのリカバリの間の精度パフォーマンスギャップをさらに小さくする。
- 参考スコア(独自算出の注目度): 3.3424221693424014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The efficient compression of large language models (LLMs) is becoming increasingly popular. However, recovering the accuracy of compressed LLMs is still a major challenge. Structural pruning with standard Low-Rank Adaptation (LoRA) is a common technique in current LLM compression. In structural pruning, the model architecture is modified unevenly, resulting in suboptimal performance in various downstream tasks via standard LoRA with fixed rank. To address this problem, we introduce RankAdaptor, an efficient fine-tuning method with hierarchical dynamic rank scheduling for pruned LLMs. An end-to-end automatic optimization flow is developed that utilizes a lightweight performance model to determine the different ranks during fine-tuning. Comprehensive experiments on popular benchmarks show that RankAdaptor consistently outperforms standard LoRA with structural pruning over different pruning settings. Without increasing the trainable parameters, RankAdaptor further reduces the accuracy performance gap between the recovery of the pruned model and the original model compared to standard LoRA.
- Abstract(参考訳): 大規模言語モデル(LLM)の効率的な圧縮は、ますます人気が高まっている。
しかし, 圧縮LDMの精度の回復は依然として大きな課題である。
標準低ランク適応 (LoRA) を用いた構造解析は、現在のLLM圧縮において一般的な手法である。
構造的なプルーニングでは、モデルアーキテクチャは不均一に修正され、固定ランクの標準のLoRAを介して、様々な下流タスクにおいて最適なパフォーマンスをもたらす。
この問題に対処するために, 階層的動的階数スケジューリングを用いた効率的な微調整手法である RankAdaptor を導入する。
軽量な性能モデルを用いて、微調整時に異なるランクを決定するエンド・ツー・エンドの自動最適化フローを開発した。
一般的なベンチマークに関する総合的な実験によると、RancAdaptorは標準のLoRAより一貫して優れており、異なるプルーニング設定に対して構造的なプルーニングを行っている。
トレーニング可能なパラメータを増やさなくても、RandAdaptorは、標準的なLoRAと比較して、プルーンドモデルとオリジナルのモデルのリカバリの間の精度パフォーマンスギャップをさらに減らすことができる。
関連論文リスト
- Rank Also Matters: Hierarchical Configuration for Mixture of Adapter Experts in LLM Fine-Tuning [5.074620301447097]
本稿では,大規模言語モデル(LLM)のための専門家のアロケーションとランク設定のための階層型スキームHILOを提案する。
HILOは、層間のアダプタエキスパートの数とランクを動的に調整し、アダプタの粒度の異なるモデルレイヤの表現複雑性に適合する。
複数のベンチマークタスクの実験では、HILOが既存のメソッドよりも精度が高く、トレーニング可能なパラメータが少ないことが示されている。
論文 参考訳(メタデータ) (2025-02-06T08:58:03Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。