論文の概要: Turbocharge Interactive NLP at the Edge
- arxiv url: http://arxiv.org/abs/2207.05022v1
- Date: Mon, 11 Jul 2022 17:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 16:17:18.315056
- Title: Turbocharge Interactive NLP at the Edge
- Title(参考訳): エッジにおけるターボチャージインタラクティブNLP
- Authors: Liwei Guo, Wonkyo Choe, Felix Xiaozhu Lin
- Abstract要約: Speedy Transformer Inference (STI) は2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
STIは1~2桁のメモリで高い精度を実現し、競争上のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Processing (NLP) inference is seeing increasing adoption by
mobile applications, where on-device inference is desirable for crucially
preserving user data privacy and avoiding network roundtrips. Yet, the
unprecedented size of an NLP model stresses both latency and memory, the two
key resources of a mobile device. To meet a target latency, holding the whole
model in memory launches execution as soon as possible but increases one app's
memory footprints by several times, limiting its benefits to only a few
inferences before being recycled by mobile memory management. On the other
hand, loading the model from storage on demand incurs a few seconds long IO,
far exceeding the delay range satisfying to a user; pipelining layerwise model
loading and execution does not hide IO either, due to the large skewness
between IO and computation delays.
To this end, we propose Speedy Transformer Inference (STI). Built on the key
idea of maximizing IO/compute resource utilization on the most important parts
of a model, STI reconciles the latency/memory tension via two novel techniques.
First, model sharding. STI manages model parameters as independently tunable
shards and profiles their importance to accuracy. Second, elastic pipeline
planning with a preload buffer. STI instantiates an IO/computation pipeline and
uses a small buffer for preload shards to bootstrap execution without stalling
in early stages; it judiciously selects, tunes, and assembles shards per their
importance for resource-elastic execution, which maximizes inference accuracy.
Atop two commodity SoCs, we build STI and evaluate it against a wide range of
NLP tasks, under a practical range of target latencies, and on both CPU and
GPU. We demonstrate that, STI delivers high accuracies with 1--2 orders of
magnitude lower memory, outperforming competitive baselines.
- Abstract(参考訳): 自然言語処理(nlp)推論は、ユーザのデータのプライバシの保護とネットワークラウンドトリップの回避にデバイス上での推論が不可欠であるモバイルアプリケーションで採用が増加している。
しかし、NLPモデルの前例のないサイズは、モバイルデバイスの2つの重要なリソースであるレイテンシとメモリの両方を強調している。
ターゲットのレイテンシを満たすため、モデル全体のメモリ保持はできるだけ早く実行を起動するが、1つのアプリのメモリフットプリントを数回増加させるため、モバイルメモリ管理によってリサイクルされる前に、そのメリットをわずかに制限する。
一方、オンデマンドのストレージからモデルを読み込むと、ユーザにとって満足な遅延範囲をはるかに超える数秒のIOが発生する。
そこで我々はSpeedy Transformer Inference (STI)を提案する。
モデルの最も重要な部分でio/computeリソースの利用を最大化するという重要なアイデアに基づいて、stiは2つの新しいテクニックによってレイテンシ/メモリの緊張を和らげる。
まず、モデルシャーディング。
STIはモデルパラメータを独立に調整可能なシャードとして管理し、正確性の重要性をプロファイルする。
次に、プリロードバッファによる弾性パイプライン計画。
STIはIO/計算パイプラインをインスタンス化し、小さなバッファを使用してシャードをプリロードし、早期に停止することなく実行をブートストラップする。
2つのコモディティ SoC の上に STI を構築し,実際の目標レイテンシ,CPU と GPU の両面において,幅広い NLP タスクに対して評価を行う。
我々は、STIが1~2桁のメモリで高い精度を実現し、競争上のベースラインを上回っていることを示した。
関連論文リスト
- KunServe: Elastic and Efficient Large Language Model Serving with Parameter-centric Memory Management [14.760434869268423]
大きな言語モデル(LLM)は、ロードバーストまたは長期要求下で、貴重なGPUメモリを簡単に絞り込むことができる。
KVCache中心のアプローチは、KVCacheのドロップ、マイグレーション、スワップによってロードスパイクを処理する。
本稿では,レプリケートされたパラメータを選択的に削除して,要求に貴重なメモリを残すパラメータ中心のアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-24T05:07:46Z) - TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。
TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文 参考訳(メタデータ) (2024-10-01T09:18:56Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - Combining Relevance and Magnitude for Resource-Aware DNN Pruning [16.976723041143956]
ニューラルネットワークのプルーニングは、精度を維持しながらパラメータの一部を削除し、機械学習パイプラインのレイテンシを低減する主要な方法の1つである。
本稿では,学習時間と推論時間を組み合わせた新しいプルーニング手法FlexRelを提案する。
性能評価の結果,FlexRelは高いプルーニング係数を達成でき,通常の精度目標に対して35%以上の帯域幅を節約できることがわかった。
論文 参考訳(メタデータ) (2024-05-21T11:42:15Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。