論文の概要: Inferflow: an Efficient and Highly Configurable Inference Engine for
Large Language Models
- arxiv url: http://arxiv.org/abs/2401.08294v1
- Date: Tue, 16 Jan 2024 11:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:11:46.773215
- Title: Inferflow: an Efficient and Highly Configurable Inference Engine for
Large Language Models
- Title(参考訳): Inferflow: 大規模言語モデルのための効率的かつ高構成可能な推論エンジン
- Authors: Shuming Shi, Enbo Zhao, Deng Cai, Leyang Cui, Xinting Huang, Huayang
Li
- Abstract要約: 大規模言語モデル(LLM)のための効率的な推論エンジンであるInferflowを提案する。
インファーフローは、新しいモデルに対して構成的に一般化可能である。
3.5ビット量子化は、3ビットと4ビットの量子化のトレードオフとしてInferflowで導入された。
- 参考スコア(独自算出の注目度): 62.09518900987336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Inferflow, an efficient and highly configurable inference engine
for large language models (LLMs). With Inferflow, users can serve most of the
common transformer models by simply modifying some lines in corresponding
configuration files, without writing a single line of source code. Compared
with most existing inference engines, Inferflow has some key features. First,
by implementing a modular framework of atomic build-blocks and technologies,
Inferflow is compositionally generalizable to new models. Second, 3.5-bit
quantization is introduced in Inferflow as a tradeoff between 3-bit and 4-bit
quantization. Third, hybrid model partitioning for multi-GPU inference is
introduced in Inferflow to better balance inference speed and throughput than
the existing partition-by-layer and partition-by-tensor strategies.
- Abstract(参考訳): Inferflowは,大規模言語モデル(LLM)のための,効率的かつ高度に構成可能な推論エンジンである。
Inferflowを使えば、ユーザは、ソースコードの1行を書かずに、対応する構成ファイルにいくつかの行を変更するだけで、一般的なトランスフォーマーモデルのほとんどを利用できる。
既存の推論エンジンと比較して、Inferflowにはいくつかの重要な機能がある。
まず、アトミックなビルドブロックとテクノロジーのモジュール化フレームワークを実装することで、inferflowは新しいモデルに合成可能になります。
第2に、3.5ビット量子化は3ビットと4ビットの量子化のトレードオフとしてinferflowに導入されている。
第三に、マルチGPU推論のためのハイブリッドモデルパーティショニングがInferflowで導入され、既存のパーティショニング・バイ・レイヤやパーティショニング・バイ・テンソル戦略よりも推論速度とスループットのバランスが良くなった。
関連論文リスト
- FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - Variant Parallelism: Lightweight Deep Convolutional Models for
Distributed Inference on IoT Devices [0.0]
2つの主要なテクニックは、リソース制約のあるIoTデバイスにモデルを分散する際に、リアルタイムの推論制限を満たすために一般的に使用される。
本稿では,主モデルの異なる変種が生成され,別々のマシンにデプロイ可能な,アンサンブルに基づくディープラーニング分散手法である変分並列性(VP)を提案する。
その結果、我々のモデルではパラメータが5.8-7.1x少なく、4.3-31x少ない乗算累積(MAC)、2.5-13.2倍の応答時間をMobileNetV2と比較できることがわかった。
論文 参考訳(メタデータ) (2022-10-15T20:52:28Z) - OneFlow: Redesign the Distributed Deep Learning Framework from Scratch [17.798586916628174]
OneFlowは、SBP(スプリット、ブロードキャスト、部分値)の抽象化とアクターモデルに基づく、新しい分散トレーニングフレームワークである。
SBPは既存のフレームワークよりも、データ並列処理やモデル並列処理のプログラミングがずっと簡単になります。
OneFlowは、最先端のフレームワーク上に構築された多くの有名なカスタマイズライブラリよりも優れています。
論文 参考訳(メタデータ) (2021-10-28T11:32:14Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。