論文の概要: LLM-Rank: A Graph Theoretical Approach to Pruning Large Language Models
- arxiv url: http://arxiv.org/abs/2410.13299v1
- Date: Thu, 17 Oct 2024 07:55:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:08.487709
- Title: LLM-Rank: A Graph Theoretical Approach to Pruning Large Language Models
- Title(参考訳): LLM-Rank:大規模言語モデルに対するグラフ理論的アプローチ
- Authors: David Hoffmann, Kailash Budhathoki, Matthaeus Kleindessner,
- Abstract要約: 本稿では,グラフ理論からの集中度測定を利用した新しいプルーニング手法を提案し,これらのモデルの計算要求とメモリフットプリントの両方を削減した。
さらに,デコーダのみのトランスモデルを拡張してLLMRankと呼ぶ。
- 参考スコア(独自算出の注目度): 1.3108652488669736
- License:
- Abstract: The evolving capabilities of large language models are accompanied by growing sizes and deployment costs, necessitating effective inference optimisation techniques. We propose a novel pruning method utilising centrality measures from graph theory, reducing both the computational requirements and the memory footprint of these models. Specifically, we devise a method for creating a weighted directed acyclical graph representation of multilayer perceptrons to which we apply a modified version of the weighted PageRank centrality measure to compute node importance scores. In combination with uniform pruning this leads to structured sparsity. We call this pruning method MLPRank. Furthermore we introduce an extension to decoder-only transformer models and call it LLMRank. For both variants we demonstrate a strong performance. With MLPRank on average leading to 6.09 % higher accuracy retention than three popular baselines and 13.42 % with LLMRank compared to two popular baselines.
- Abstract(参考訳): 大きな言語モデルの進化する能力には、サイズとデプロイメントコストの増大が伴い、効果的な推論最適化技術が必要である。
本稿では,グラフ理論からの集中度測定を利用した新しいプルーニング手法を提案し,これらのモデルの計算要求とメモリフットプリントの両方を削減した。
具体的には,重み付けされたPageRank集中度尺度の修正版を適用した多層パーセプトロンの重み付けされた非巡回グラフ表現を作成し,ノードの重要度を求める。
均一な刈り込みと組み合わせると、これは構造化された空間性につながる。
このプルーニング手法をMLPRankと呼ぶ。
さらに,デコーダのみのトランスモデルを拡張してLLMRankと呼ぶ。
どちらの変種に対しても、強いパフォーマンスを示します。
MLPRankが平均6.09%の精度保持率、LLMRankが13.42%となる。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - ELMGS: Enhancing memory and computation scaLability through coMpression for 3D Gaussian Splatting [16.373800112150573]
3Dモデルは最近、Neural Radiance Fieldsと3D Gaussian Splatting Modelによって提供されるエンドツーエンドトレーニングの可能性によって普及した。
本稿では,そのようなモデルのメモリと計算のスケーラビリティを両立させる手法を提案する。
一般的なベンチマークでは,提案手法の有効性を実証し,資源制約のあるデバイス上でも,そのようなソリューションの広範な展開可能性への道を開く。
論文 参考訳(メタデータ) (2024-10-30T17:01:28Z) - Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。
PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。
この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T15:27:57Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。
本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。
LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文 参考訳(メタデータ) (2024-05-27T14:49:39Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Improving generalization in large language models by learning prefix
subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T12:44:09Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。