論文の概要: HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference
- arxiv url: http://arxiv.org/abs/2402.09360v1
- Date: Wed, 14 Feb 2024 18:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:08:07.311632
- Title: HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference
- Title(参考訳): HiRE: 効率的なLLM推論のための高リコール近似トップ$k$推定
- Authors: Yashas Samaga B L and Varun Yerram and Chong You and Srinadh
Bhojanapalli and Sanjiv Kumar and Prateek Jain and Praneeth Netrapalli
- Abstract要約: HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
- 参考スコア(独自算出の注目度): 68.59839755875252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive decoding with generative Large Language Models (LLMs) on
accelerators (GPUs/TPUs) is often memory-bound where most of the time is spent
on transferring model parameters from high bandwidth memory (HBM) to cache. On
the other hand, recent works show that LLMs can maintain quality with
significant sparsity/redundancy in the feedforward (FFN) layers by
appropriately training the model to operate on a top-$k$ fraction of
rows/columns (where $k \approx 0.05$), there by suggesting a way to reduce the
transfer of model parameters, and hence latency. However, exploiting this
sparsity for improving latency is hindered by the fact that identifying top
rows/columns is data-dependent and is usually performed using full matrix
operations, severely limiting potential gains. To address these issues, we
introduce HiRE (High Recall Approximate Top-k Estimation). HiRE comprises of
two novel components: (i) a compression scheme to cheaply predict top-$k$
rows/columns with high recall, followed by full computation restricted to the
predicted subset, and (ii) DA-TOP-$k$: an efficient multi-device approximate
top-$k$ operator. We demonstrate that on a one billion parameter model, HiRE
applied to both the softmax as well as feedforward layers, achieves almost
matching pretraining and downstream accuracy, and speeds up inference latency
by $1.47\times$ on a single TPUv5e device.
- Abstract(参考訳): アクセラレータ(GPU/TPU)上のジェネレーティブなLarge Language Models(LLM)による自動回帰デコーディングは、高帯域メモリ(HBM)からキャッシュへのモデルパラメータの転送にほとんどの時間を費やしている場合、メモリバウンドであることが多い。
一方,近年の研究では,フィードフォワード(ffn)層において,モデルパラメータの転送を低減し,遅延を低減させる手法を提案すれば,最大$k$の行/列($k \approx 0.05$)でモデルを操作するように適切にトレーニングすることで,llmが品質を保ち,fedforward(ffn)層において著しいスパース性と冗長性を有することが示されている。
しかし、遅延を改善するためにこの疎結合を利用することは、トップ行/カラムの識別がデータ依存であり、通常は完全な行列演算を使用して実行され、潜在的なゲインを著しく制限するという事実によって妨げられる。
これらの問題に対処するため、HiRE(High Recall Approximate Top-k Estimation)を導入する。
HiREは2つの新しいコンポーネントから構成される。
(i)高いリコールでトップ$k$行/カラムを安価に予測するための圧縮スキーム、及び予測サブセットに制限されたフル計算
(ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-$k$演算子。
10億のパラメータモデルでは、softmaxとfeedforwardの両方のレイヤに適用され、ほぼ一致する事前トレーニングと下流精度を達成し、単一のtpuv5eデバイスで推論遅延を1.47\times$で高速化する。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - S$^{2}$FT: Efficient, Scalable and Generalizable LLM Fine-tuning by Structured Sparsity [39.679861450783605]
LLMのための構造化スパースファインチューニング(S$2$FT)手法のファミリーを提案する。
S$2$FTは、"スパースと密度の高い計算を選択"することでこれを達成します。
S$2$FTはトレーニングメモリを最大3$times$まで節約し、フルFTと比較して1.5-2.7$times$のレイテンシを改善することを示す。
論文 参考訳(メタデータ) (2024-12-09T08:24:11Z) - HELENE: Hessian Layer-wise Clipping and Gradient Annealing for Accelerating Fine-tuning LLM with Zeroth-order Optimization [18.00873866263434]
微調整された大きな言語モデル(LLM)は、大きなメモリ問題を引き起こす。
最近の研究であるMeZOは、ゼロ階最適化法(ZO)を用いてこの問題に対処している。
HELENEは、スケーラブルでメモリ効率の良い新しいプレコンディショナーである。
論文 参考訳(メタデータ) (2024-11-16T04:27:22Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - A Learning-Based Fast Uplink Grant for Massive IoT via Support Vector
Machines and Long Short-Term Memory [8.864453148536057]
3IoTは、レイテンシを低減し、スマートインターネット・オブ・シング(mMTC)アプリケーションの信頼性を高めるために、高速アップリンク・アロケーション(FUG)を使用する必要性を導入した。
サポートマシンスケジューラ(SVM)に基づく新しいFUGアロケーションを提案する。
第2に、LSTMアーキテクチャは、予測エラーを克服するためにトラフィック予測と補正技術に使用される。
論文 参考訳(メタデータ) (2021-08-02T11:33:02Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。