Fugu-MT 論文翻訳(概要): HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference

論文の概要: HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference

arxiv url: http://arxiv.org/abs/2402.09360v1
Date: Wed, 14 Feb 2024 18:04:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 14:08:07.311632
Title: HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference
Title（参考訳）: HiRE: 効率的なLLM推論のための高リコール近似トップ$k$推定
Authors: Yashas Samaga B L and Varun Yerram and Chong You and Srinadh Bhojanapalli and Sanjiv Kumar and Prateek Jain and Praneeth Netrapalli
Abstract要約: HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
参考スコア（独自算出の注目度）: 68.59839755875252
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive decoding with generative Large Language Models (LLMs) on accelerators (GPUs/TPUs) is often memory-bound where most of the time is spent on transferring model parameters from high bandwidth memory (HBM) to cache. On the other hand, recent works show that LLMs can maintain quality with significant sparsity/redundancy in the feedforward (FFN) layers by appropriately training the model to operate on a top-$k$ fraction of rows/columns (where $k \approx 0.05$), there by suggesting a way to reduce the transfer of model parameters, and hence latency. However, exploiting this sparsity for improving latency is hindered by the fact that identifying top rows/columns is data-dependent and is usually performed using full matrix operations, severely limiting potential gains. To address these issues, we introduce HiRE (High Recall Approximate Top-k Estimation). HiRE comprises of two novel components: (i) a compression scheme to cheaply predict top-$k$ rows/columns with high recall, followed by full computation restricted to the predicted subset, and (ii) DA-TOP-$k$: an efficient multi-device approximate top-$k$ operator. We demonstrate that on a one billion parameter model, HiRE applied to both the softmax as well as feedforward layers, achieves almost matching pretraining and downstream accuracy, and speeds up inference latency by $1.47\times$ on a single TPUv5e device.
Abstract（参考訳）: アクセラレータ(GPU/TPU)上のジェネレーティブなLarge Language Models(LLM)による自動回帰デコーディングは、高帯域メモリ(HBM)からキャッシュへのモデルパラメータの転送にほとんどの時間を費やしている場合、メモリバウンドであることが多い。一方,近年の研究では,フィードフォワード(ffn)層において,モデルパラメータの転送を低減し,遅延を低減させる手法を提案すれば,最大$k$の行/列($k \approx 0.05$)でモデルを操作するように適切にトレーニングすることで,llmが品質を保ち,fedforward(ffn)層において著しいスパース性と冗長性を有することが示されている。しかし、遅延を改善するためにこの疎結合を利用することは、トップ行/カラムの識別がデータ依存であり、通常は完全な行列演算を使用して実行され、潜在的なゲインを著しく制限するという事実によって妨げられる。これらの問題に対処するため、HiRE(High Recall Approximate Top-k Estimation)を導入する。 HiREは2つの新しいコンポーネントから構成される。 (i)高いリコールでトップ$k$行/カラムを安価に予測するための圧縮スキーム、及び予測サブセットに制限されたフル計算 (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-$k$演算子。 10億のパラメータモデルでは、softmaxとfeedforwardの両方のレイヤに適用され、ほぼ一致する事前トレーニングと下流精度を達成し、単一のtpuv5eデバイスで推論遅延を1.47\times$で高速化する。

関連論文リスト

Ravan: Multi-Head Low-Rank Adaptation for Federated Fine-Tuning [16.99490636203893]
パラメータ効率とモデル表現率のバランスをとる適応型マルチヘッドLoRA法であるtextscRavanを提案する。ビジョンと言語ベンチマークの実験では、textscRavanは以前のパラメータ効率の基準線よりも2-8%精度が向上している。
論文参考訳（メタデータ） (2025-06-05T20:28:02Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
HELIOS: Adaptive Model And Early-Exit Selection for Efficient LLM Inference Serving [5.698111842478072]
初期のLLMは、後のモデルレイヤをスキップすることで、このトレードオフ空間を効率的にナビゲートします。現在のフレームワークでは、ユーザタスクのモデルが静的に選択され、入力クエリの性質の変化に適応する能力が制限されます。まず、HELIOSショートリストは、候補LLMの集合をリストし、プロンプトのサブセットを用いて評価し、テレメトリデータをリアルタイムで収集する。第2に、HELIOSはこれらの評価から得られた早期出口データを使用して、選択したモデルを限られた数の層に限定的にロードする。
論文参考訳（メタデータ） (2025-04-14T21:30:43Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
S$^{2}$FT: Efficient, Scalable and Generalizable LLM Fine-tuning by Structured Sparsity [39.679861450783605]
LLMのための構造化スパースファインチューニング(S$2$FT)手法のファミリーを提案する。 S$2$FTは、"スパースと密度の高い計算を選択"することでこれを達成します。 S$2$FTはトレーニングメモリを最大3$times$まで節約し、フルFTと比較して1.5-2.7$times$のレイテンシを改善することを示す。
論文参考訳（メタデータ） (2024-12-09T08:24:11Z)
HELENE: Hessian Layer-wise Clipping and Gradient Annealing for Accelerating Fine-tuning LLM with Zeroth-order Optimization [18.00873866263434]
微調整された大きな言語モデル(LLM)は、大きなメモリ問題を引き起こす。最近の研究であるMeZOは、ゼロ階最適化法(ZO)を用いてこの問題に対処している。 HELENEは、スケーラブルでメモリ効率の良い新しいプレコンディショナーである。
論文参考訳（メタデータ） (2024-11-16T04:27:22Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文参考訳（メタデータ） (2024-09-23T20:14:09Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文参考訳（メタデータ） (2023-06-03T05:01:51Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文参考訳（メタデータ） (2021-10-18T17:35:41Z)
A Learning-Based Fast Uplink Grant for Massive IoT via Support Vector Machines and Long Short-Term Memory [8.864453148536057]
3IoTは、レイテンシを低減し、スマートインターネット・オブ・シング(mMTC)アプリケーションの信頼性を高めるために、高速アップリンク・アロケーション(FUG)を使用する必要性を導入した。サポートマシンスケジューラ(SVM)に基づく新しいFUGアロケーションを提案する。第2に、LSTMアーキテクチャは、予測エラーを克服するためにトラフィック予測と補正技術に使用される。
論文参考訳（メタデータ） (2021-08-02T11:33:02Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。