論文の概要: Efficient NLP Inference at the Edge via Elastic Pipelining
- arxiv url: http://arxiv.org/abs/2207.05022v2
- Date: Tue, 12 Jul 2022 03:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 10:14:11.259419
- Title: Efficient NLP Inference at the Edge via Elastic Pipelining
- Title(参考訳): 弾性管路によるエッジの効率的なnlp推定
- Authors: Liwei Guo, Wonkyo Choe, Felix Xiaozhu Lin
- Abstract要約: WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Processing (NLP) inference is seeing increasing adoption by
mobile applications, where on-device inference is desirable for crucially
preserving user data privacy and avoiding network roundtrips. Yet, the
unprecedented size of an NLP model stresses both latency and memory, the two
key resources of a mobile device. To meet a target latency, holding the whole
model in memory launches execution as soon as possible but increases one app's
memory footprints by several times, limiting its benefits to only a few
inferences before being recycled by mobile memory management. On the other
hand, loading the model from storage on demand incurs a few seconds long IO,
far exceeding the delay range satisfying to a user; pipelining layerwise model
loading and execution does not hide IO either, due to the large skewness
between IO and computation delays.
To this end, we propose WRX. Built on the key idea of maximizing IO/compute
resource utilization on the most important parts of a model, WRX reconciles the
latency/memory tension via two novel techniques. First, model sharding. WRX
manages model parameters as independently tunable shards and profiles their
importance to accuracy. Second, elastic pipeline planning with a preload
buffer. WRX instantiates an IO/computation pipeline and uses a small buffer for
preload shards to bootstrap execution without stalling in early stages; it
judiciously selects, tunes, and assembles shards per their importance for
resource-elastic execution, which maximizes inference accuracy.
Atop two commodity SoCs, we build WRX and evaluate it against a wide range of
NLP tasks, under a practical range of target latencies, and on both CPU and
GPU. We demonstrate that, WRX delivers high accuracies with 1--2 orders of
magnitude lower memory, outperforming competitive baselines.
- Abstract(参考訳): 自然言語処理(nlp)推論は、ユーザのデータのプライバシの保護とネットワークラウンドトリップの回避にデバイス上での推論が不可欠であるモバイルアプリケーションで採用が増加している。
しかし、NLPモデルの前例のないサイズは、モバイルデバイスの2つの重要なリソースであるレイテンシとメモリの両方を強調している。
ターゲットのレイテンシを満たすため、モデル全体のメモリ保持はできるだけ早く実行を起動するが、1つのアプリのメモリフットプリントを数回増加させるため、モバイルメモリ管理によってリサイクルされる前に、そのメリットをわずかに制限する。
一方、オンデマンドのストレージからモデルを読み込むと、ユーザにとって満足な遅延範囲をはるかに超える数秒のIOが発生する。
そこで我々はWRXを提案する。
WRXは、モデルの最も重要な部分にIO/Computeリソースの利用を最大化するというキーアイデアに基づいて、2つの新しいテクニックを通じてレイテンシ/メモリの緊張を緩和する。
まず、モデルシャーディング。
wrxはモデルパラメータを独立に調整可能なシャードとして管理し、精度の重要性をプロファイルする。
次に、プリロードバッファによる弾性パイプライン計画。
wrxはio/計算パイプラインをインスタンス化し、早い段階で停止することなく、シャードをプリロードしてブートストラップ実行を行うための小さなバッファを使用する。
2つのコモディティ SoC の上に WRX を構築し,実際の目標レイテンシ,CPU と GPU の両面において,幅広い NLP タスクに対して評価を行う。
我々はWRXが1~2桁のメモリで高い精度を実現し、競争上のベースラインを上回っていることを示した。
関連論文リスト
- Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - SPT: Fine-Tuning Transformer-based Language Models Efficiently with
Sparsification [14.559316921646356]
下流タスクのための微調整トランスフォーマーベースのモデルには、長い実行時間と高いメモリ消費がある。
本稿では,スペーサ性を導入し,トランスフォーマーベースモデルを効率的に微調整するSPTシステムを提案する。
SPTは、最適化されたベースラインを一貫して上回り、ピークメモリ消費を最大50%削減し、微調整を最大2.2倍高速化する。
論文 参考訳(メタデータ) (2023-12-16T07:44:52Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on
Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。
エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文 参考訳(メタデータ) (2023-06-10T17:25:58Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。