論文の概要: HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference
- arxiv url: http://arxiv.org/abs/2402.09360v1
- Date: Wed, 14 Feb 2024 18:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:08:07.311632
- Title: HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference
- Title(参考訳): HiRE: 効率的なLLM推論のための高リコール近似トップ$k$推定
- Authors: Yashas Samaga B L and Varun Yerram and Chong You and Srinadh
Bhojanapalli and Sanjiv Kumar and Prateek Jain and Praneeth Netrapalli
- Abstract要約: HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
- 参考スコア(独自算出の注目度): 68.59839755875252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive decoding with generative Large Language Models (LLMs) on
accelerators (GPUs/TPUs) is often memory-bound where most of the time is spent
on transferring model parameters from high bandwidth memory (HBM) to cache. On
the other hand, recent works show that LLMs can maintain quality with
significant sparsity/redundancy in the feedforward (FFN) layers by
appropriately training the model to operate on a top-$k$ fraction of
rows/columns (where $k \approx 0.05$), there by suggesting a way to reduce the
transfer of model parameters, and hence latency. However, exploiting this
sparsity for improving latency is hindered by the fact that identifying top
rows/columns is data-dependent and is usually performed using full matrix
operations, severely limiting potential gains. To address these issues, we
introduce HiRE (High Recall Approximate Top-k Estimation). HiRE comprises of
two novel components: (i) a compression scheme to cheaply predict top-$k$
rows/columns with high recall, followed by full computation restricted to the
predicted subset, and (ii) DA-TOP-$k$: an efficient multi-device approximate
top-$k$ operator. We demonstrate that on a one billion parameter model, HiRE
applied to both the softmax as well as feedforward layers, achieves almost
matching pretraining and downstream accuracy, and speeds up inference latency
by $1.47\times$ on a single TPUv5e device.
- Abstract(参考訳): アクセラレータ(GPU/TPU)上のジェネレーティブなLarge Language Models(LLM)による自動回帰デコーディングは、高帯域メモリ(HBM)からキャッシュへのモデルパラメータの転送にほとんどの時間を費やしている場合、メモリバウンドであることが多い。
一方,近年の研究では,フィードフォワード(ffn)層において,モデルパラメータの転送を低減し,遅延を低減させる手法を提案すれば,最大$k$の行/列($k \approx 0.05$)でモデルを操作するように適切にトレーニングすることで,llmが品質を保ち,fedforward(ffn)層において著しいスパース性と冗長性を有することが示されている。
しかし、遅延を改善するためにこの疎結合を利用することは、トップ行/カラムの識別がデータ依存であり、通常は完全な行列演算を使用して実行され、潜在的なゲインを著しく制限するという事実によって妨げられる。
これらの問題に対処するため、HiRE(High Recall Approximate Top-k Estimation)を導入する。
HiREは2つの新しいコンポーネントから構成される。
(i)高いリコールでトップ$k$行/カラムを安価に予測するための圧縮スキーム、及び予測サブセットに制限されたフル計算
(ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-$k$演算子。
10億のパラメータモデルでは、softmaxとfeedforwardの両方のレイヤに適用され、ほぼ一致する事前トレーニングと下流精度を達成し、単一のtpuv5eデバイスで推論遅延を1.47\times$で高速化する。
関連論文リスト
- No Need to Look Back: An Efficient and Scalable Approach for Temporal
Network Representation Learning [9.218415145210715]
本稿では、新しい効率的なTGRLフレームワーク、No-Looking-Back(NLB)を紹介する。
NLBは「前向きの最近のサンプリング」戦略を採用しており、歴史的相互作用のバックトラックの必要性を回避している。
経験的評価は、NLBがリンク予測とノード分類の精度において最先端の手法と一致するか、あるいは超えていることを示している。
論文 参考訳(メタデータ) (2024-02-03T00:12:36Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with
Communication Cost under 18 Kilobytes [56.67419203687434]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - QuaLA-MiniLM: a Quantized Length Adaptive MiniLM [5.36703735486629]
限られた計算予算は、トランスフォーマーを生産に使用せず、高い精度で使用することを防ぐことが多い。
知識蒸留法では、BERTを自己蒸留して、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換することにより、計算効率に対処する。
Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。
我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率をさらに高めている。
論文 参考訳(メタデータ) (2022-10-31T07:42:52Z) - BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。
提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文 参考訳(メタデータ) (2021-10-18T17:35:41Z) - A Learning-Based Fast Uplink Grant for Massive IoT via Support Vector
Machines and Long Short-Term Memory [8.864453148536057]
3IoTは、レイテンシを低減し、スマートインターネット・オブ・シング(mMTC)アプリケーションの信頼性を高めるために、高速アップリンク・アロケーション(FUG)を使用する必要性を導入した。
サポートマシンスケジューラ(SVM)に基づく新しいFUGアロケーションを提案する。
第2に、LSTMアーキテクチャは、予測エラーを克服するためにトラフィック予測と補正技術に使用される。
論文 参考訳(メタデータ) (2021-08-02T11:33:02Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。