Fugu-MT 論文翻訳(概要): Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference

論文の概要: Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference

arxiv url: http://arxiv.org/abs/2406.11674v1
Date: Mon, 17 Jun 2024 15:55:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 14:03:05.458715
Title: Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference
Title（参考訳）: ハードウェアフレンドリーなLLM推論用スパースフォーマットEndor
Authors: Donghyeon Joo, Ramyad Hadidi, Soheil Feizi, Bahar Asgari,
Abstract要約: 本研究では, 圧縮率が高く, 減圧オーバーヘッドの少ない非ゼロ値に対して, 刈り取られたLLM重みの非構造スパースパターンを圧縮する新しいスパース形式を提案する。一般的なHugingface Accelerateを使ったオフロード推論と比較して、EndorはOPT-66Bを1.70倍、Llama2-70Bを1.78倍加速する。
参考スコア（独自算出の注目度）: 47.043257902725294
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing size of large language models (LLMs) challenges their usage on resource-constrained platforms. For example, memory on modern GPUs is insufficient to hold LLMs that are hundreds of Gigabytes in size. Offloading is a popular method to escape this constraint by storing weights of an LLM model to host CPU memory and SSD, then loading each weight to GPU before every use. In our case study of offloaded inference, we found that due to the low bandwidth between storage devices and GPU, the latency of transferring large model weights from its offloaded location to GPU memory becomes the critical bottleneck with actual compute taking nearly 0% of runtime. To effectively reduce the weight transfer latency, we propose a novel sparse format that compresses the unstructured sparse pattern of pruned LLM weights to non-zero values with high compression ratio and low decompression overhead. Endor achieves this by expressing the positions of non-zero elements with a bitmap. Compared to offloaded inference using the popular Huggingface Accelerate, applying Endor accelerates OPT-66B by 1.70x and Llama2-70B by 1.78x. When direct weight transfer from SSD to GPU is leveraged, Endor achieves 2.25x speedup on OPT-66B and 2.37x speedup on Llama2-70B.
Abstract（参考訳）: 大きな言語モデル(LLM)のサイズが大きくなるにつれ、リソース制約のあるプラットフォームでの使用が困難になる。例えば、現代のGPUのメモリは、数百ギガバイトのLLMを保持するには不十分である。オフロードは、CPUメモリとSSDをホストするLLMモデルの重みを格納し、各重みを使用前にGPUにロードすることで、この制約から逃れるための一般的な方法である。オフロード推論のケーススタディでは、ストレージデバイスとGPU間の低帯域幅のため、オフロードされた位置からGPUメモリへの大きなモデル重み付けのレイテンシが重要なボトルネックとなり、実際の計算がランタイムの0%近くを占めることが判明した。重量移動遅延を効果的に低減するために, 刈り取られたLLM重みの非構造スパースパターンを, 圧縮比が高く, 減圧オーバーヘッドの少ない非ゼロ値に圧縮する新しいスパース形式を提案する。 Endorはビットマップでゼロでない要素の位置を表現することでこれを実現する。一般的なHugingface Accelerateを使ったオフロード推論と比較して、EndorはOPT-66Bを1.70倍、Llama2-70Bを1.78倍加速する。 SSDからGPUへの直接の重量移動を利用すると、EndorはOPT-66Bで2.25倍、Llama2-70Bで2.37倍のスピードアップを達成する。

関連論文リスト

Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文参考訳（メタデータ） (2026-02-02T13:52:40Z)
Harvest: Opportunistic Peer-to-Peer GPU Caching for LLM Inference [0.0]
LLM(Large Language Model)推論は、計算スループットよりもGPUメモリ容量に制限されている。本稿では,高帯域幅のピアツーピアGPU相互接続を利用したGPUキャッシュ管理フレームワークであるHarvestを紹介する。本研究では、Harvestを用いて2つの広く使われている推論コンポーネントの検索を高速化することにより、2倍以上のスループットの大幅な高速化を示す。
論文参考訳（メタデータ） (2026-01-30T21:29:04Z)
10Cache: Heterogeneous Resource-Aware Tensor Caching and Migration for LLM Training [0.22913283036871865]
クラウドでの大規模言語モデル(LLM)のトレーニングは、GPUの容量の制限と高コストのため、メモリボトルネックの増大に直面します。リソースを意識したテンソルキャッシュとマイグレーションシステムである10Cacheを,GPU,CPU,ティア間でメモリ使用量をインテリジェントに調整することで,トレーニングを高速化する。トレーニング時間の最大2倍のスピードアップを実現し、GPUキャッシュヒット率を最大86.6倍に改善し、CPU/GPUメモリ使用率を最大2.15倍と1.33倍に向上させる。
論文参考訳（メタデータ） (2025-11-18T04:17:44Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰的な性質は推論時に非効率な資源利用につながることが多い。本稿では、GPUレベルの詳細な分析を通して、大バッチ推論がメモリバウンドのままであり、ほとんどのGPU計算能力は未利用であることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
Huff-LLM: End-to-End Lossless Compression for Efficient LLM Inference [19.59857352852377]
大規模言語モデル(LLM)は、急速にサイズを拡大し続けている。これにより、小さなエッジデバイス上でのLLMの動作の困難さが増した。本稿では,LLM重みを圧縮形式で格納するHuff-LLMを提案する。
論文参考訳（メタデータ） (2025-02-02T21:23:42Z)
TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。 TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。 TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文参考訳（メタデータ） (2024-10-01T09:18:56Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
Practical offloading for fine-tuning LLM on commodity GPU via learned subspace projectors [11.938205508966808]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP_Offload を提案する。
論文参考訳（メタデータ） (2024-06-14T16:59:11Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
SliceGPT: Compress Large Language Models by Deleting Rows and Columns [27.004657436024853]
SliceGPTは,各重み行列をより小さい(高密度)行列に置き換え,ネットワークの埋め込み次元を小さくする,新しい学習後スペーシング方式である。 SliceGPT は LLAMA2-70B OPT 66B と Phi-2 のモデルパラメータの最大25% (埋め込みを含む) を,99%,99%,90% のゼロショットタスク性能を維持しながら除去可能であることを示す。
論文参考訳（メタデータ） (2024-01-26T17:35:45Z)
FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGAs [23.381331567339526]
Transformer-based Large Language Models (LLMs) は様々な領域に多大な影響を与えている。本稿では,FPGA上での完全なマッピングフローを用いて,効率的なLLM推論を実現するFlightLLMを提案する。 FlightLLMは最新のVersal VHK158 FPGAを使用して1.2$times$高スループットでNVIDIA A100 GPUを破る。
論文参考訳（メタデータ） (2024-01-08T13:00:53Z)
eDKM: An Efficient and Accurate Train-time Weight Clustering for Large Language Models [19.502740996431452]
微分可能なKMeans Clustering(DKM)は、圧縮比と精度回帰の間の最先端のトレードオフを示している。メモリ効率のよいDKM実装であるeDKMを提案し,DKMのメモリフットプリントを桁違いに削減する。
論文参考訳（メタデータ） (2023-09-02T15:16:35Z)
Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文参考訳（メタデータ） (2023-06-16T11:37:15Z)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。 AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文参考訳（メタデータ） (2023-06-01T17:59:10Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。