論文の概要: Characterizing the Accuracy - Efficiency Trade-off of Low-rank Decomposition in Language Models
- arxiv url: http://arxiv.org/abs/2405.06626v1
- Date: Fri, 10 May 2024 17:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 15:08:38.942914
- Title: Characterizing the Accuracy - Efficiency Trade-off of Low-rank Decomposition in Language Models
- Title(参考訳): 言語モデルにおける低階分解の精度-効率トレードオフの特徴
- Authors: Chakshu Moar, Michael Pellauer, Hyoukjun Kwon,
- Abstract要約: 大規模言語モデル(LLM)が登場し、1つのモデルでそれらの一般的な問題解決能力を示した。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。
その結果,9%のモデルサイズ削減を最小限の精度で達成できることが示唆された。
- 参考スコア(独自算出の注目度): 1.530997923234786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have emerged and presented their general problem-solving capabilities with one model. However, the model size has increased dramatically with billions of parameters to enable such broad problem-solving capabilities. In addition, due to the dominance of matrix-matrix and matrix-vector multiplications in LLMs, the compute-to-model size ratio is significantly lower than that of CNNs. This shift pushes LLMs from a computation-bound regime to a memory-bound regime. Therefore, optimizing the memory footprint and traffic is an important optimization direction for LLMs today. Model compression methods such as quantization and parameter pruning have been actively explored for achieving the memory footprint and traffic optimization. However, the accuracy-efficiency trade-off of rank pruning for LLMs is not well-understood yet. Therefore, we characterize the accuracy-efficiency trade-off of a low-rank decomposition method, specifically Tucker decomposition, on recent language models, including an open-source LLM, Llama 2. We formalize the low-rank decomposition design space and show that the decomposition design space is enormous (e.g., O($2^{37}$) for Llama2-7B). To navigate such a vast design space, we formulate the design space and perform thorough case studies of accuracy-efficiency trade-offs using six widely used LLM benchmarks on BERT and Llama 2 models. Our results show that we can achieve a 9\% model size reduction with minimal accuracy drops, which range from 4\%p to 10\%p, depending on the difficulty of the benchmark, without any retraining to recover accuracy after decomposition. The results show that low-rank decomposition can be a promising direction for LLM-based applications that require real-time service in scale (e.g., AI agent assist and real-time coding assistant), where the latency is as important as the model accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)が登場し、1つのモデルでそれらの一般的な問題解決能力を示した。
しかし、モデルのサイズは数十億のパラメータで劇的に増加し、そのような広範な問題解決能力を実現している。
また, LLMにおける行列行列行列と行列ベクトル乗算の優位性により, 計算-モデルサイズ比はCNNよりも有意に低い値を示した。
このシフトは、LSMを計算バウンドな状態からメモリバウンドな状態へプッシュする。
したがって、メモリフットプリントとトラフィックの最適化は、今日のLLMにとって重要な最適化方向である。
メモリフットプリントとトラフィック最適化を実現するため,量子化やパラメータプルーニングなどのモデル圧縮手法が積極的に検討されている。
しかし、LLMのランクプルーニングの精度と効率のトレードオフはまだ十分に理解されていない。
したがって、オープンソースのLLM Llama 2を含む最近の言語モデルにおいて、低ランク分解法、特にタッカー分解の精度と効率のトレードオフを特徴付ける。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す(例えば、Llama2-7B に対して O($2^{37}$)。
このような広大な設計空間をナビゲートするために,BERT と Llama 2 モデル上で広く使用されている6つの LLM ベンチマークを用いて,設計空間を定式化し,精度-効率トレードオフの徹底的なケーススタディを行う。
その結果, 精度低下を最小限に抑えたモデルサイズを, 4 %p から 10 %p まで, ベンチマークの難易度に応じて, 分解後の精度を回復させることなく, 9 % のモデルサイズ縮小を達成できることが示唆された。
その結果,LLMをベースとした大規模リアルタイムサービス(AIエージェントアシストやリアルタイムコーディングアシスタントなど)を必要とするアプリケーションでは,レイテンシがモデル精度と同じくらい重要である,低ランクの分解が有望な方向であることが示唆された。
関連論文リスト
- SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs [2.7624021966289605]
大規模言語モデル(LLM)は、自然言語の理解と生成タスクに革命をもたらした。
LLMは、大きなパラメータサイズのため、メモリ消費が高く、推論時間が遅い。
本稿では,1ショットの量子スパースプラス低ランク近似を用いたLEMの圧縮手法であるSLiMを紹介する。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Sparse Fine-tuning for Inference Acceleration of Large Language Models [48.285897264669984]
大規模言語モデル(LLM)の精密細粒度調整の問題点について考察する。
蒸留型損失の詳細な研究を行い,L2に基づく蒸留手法をSquareHeadと呼ぶ。
MPTテキスト生成では、細かな微調整が精度低下なしに75%の間隔に到達できることを初めて示す。
論文 参考訳(メタデータ) (2023-10-10T18:28:38Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。