Fugu-MT 論文翻訳(概要): Efficient NLP Inference at the Edge via Elastic Pipelining

論文の概要: Efficient NLP Inference at the Edge via Elastic Pipelining

arxiv url: http://arxiv.org/abs/2207.05022v2
Date: Tue, 12 Jul 2022 03:17:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-13 10:14:11.259419
Title: Efficient NLP Inference at the Edge via Elastic Pipelining
Title（参考訳）: 弾性管路によるエッジの効率的なnlp推定
Authors: Liwei Guo, Wonkyo Choe, Felix Xiaozhu Lin
Abstract要約: WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。 We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
参考スコア（独自算出の注目度）: 0.42970700836450487
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Natural Language Processing (NLP) inference is seeing increasing adoption by mobile applications, where on-device inference is desirable for crucially preserving user data privacy and avoiding network roundtrips. Yet, the unprecedented size of an NLP model stresses both latency and memory, the two key resources of a mobile device. To meet a target latency, holding the whole model in memory launches execution as soon as possible but increases one app's memory footprints by several times, limiting its benefits to only a few inferences before being recycled by mobile memory management. On the other hand, loading the model from storage on demand incurs a few seconds long IO, far exceeding the delay range satisfying to a user; pipelining layerwise model loading and execution does not hide IO either, due to the large skewness between IO and computation delays. To this end, we propose WRX. Built on the key idea of maximizing IO/compute resource utilization on the most important parts of a model, WRX reconciles the latency/memory tension via two novel techniques. First, model sharding. WRX manages model parameters as independently tunable shards and profiles their importance to accuracy. Second, elastic pipeline planning with a preload buffer. WRX instantiates an IO/computation pipeline and uses a small buffer for preload shards to bootstrap execution without stalling in early stages; it judiciously selects, tunes, and assembles shards per their importance for resource-elastic execution, which maximizes inference accuracy. Atop two commodity SoCs, we build WRX and evaluate it against a wide range of NLP tasks, under a practical range of target latencies, and on both CPU and GPU. We demonstrate that, WRX delivers high accuracies with 1--2 orders of magnitude lower memory, outperforming competitive baselines.
Abstract（参考訳）: 自然言語処理(nlp)推論は、ユーザのデータのプライバシの保護とネットワークラウンドトリップの回避にデバイス上での推論が不可欠であるモバイルアプリケーションで採用が増加している。しかし、NLPモデルの前例のないサイズは、モバイルデバイスの2つの重要なリソースであるレイテンシとメモリの両方を強調している。ターゲットのレイテンシを満たすため、モデル全体のメモリ保持はできるだけ早く実行を起動するが、1つのアプリのメモリフットプリントを数回増加させるため、モバイルメモリ管理によってリサイクルされる前に、そのメリットをわずかに制限する。一方、オンデマンドのストレージからモデルを読み込むと、ユーザにとって満足な遅延範囲をはるかに超える数秒のIOが発生する。そこで我々はWRXを提案する。 WRXは、モデルの最も重要な部分にIO/Computeリソースの利用を最大化するというキーアイデアに基づいて、2つの新しいテクニックを通じてレイテンシ/メモリの緊張を緩和する。まず、モデルシャーディング。 wrxはモデルパラメータを独立に調整可能なシャードとして管理し、精度の重要性をプロファイルする。次に、プリロードバッファによる弾性パイプライン計画。 wrxはio/計算パイプラインをインスタンス化し、早い段階で停止することなく、シャードをプリロードしてブートストラップ実行を行うための小さなバッファを使用する。 2つのコモディティ SoC の上に WRX を構築し,実際の目標レイテンシ,CPU と GPU の両面において,幅広い NLP タスクに対して評価を行う。我々はWRXが1～2桁のメモリで高い精度を実現し、競争上のベースラインを上回っていることを示した。

関連論文リスト

KunServe: Elastic and Efficient Large Language Model Serving with Parameter-centric Memory Management [14.760434869268423]
大きな言語モデル(LLM)は、ロードバーストまたは長期要求下で、貴重なGPUメモリを簡単に絞り込むことができる。 KVCache中心のアプローチは、KVCacheのドロップ、マイグレーション、スワップによってロードスパイクを処理する。本稿では,レプリケートされたパラメータを選択的に削除して,要求に貴重なメモリを残すパラメータ中心のアプローチを提案する。
論文参考訳（メタデータ） (2024-12-24T05:07:46Z)
TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。 TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。 TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文参考訳（メタデータ） (2024-10-01T09:18:56Z)
Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文参考訳（メタデータ） (2024-09-23T20:14:09Z)
Combining Relevance and Magnitude for Resource-Aware DNN Pruning [16.976723041143956]
ニューラルネットワークのプルーニングは、精度を維持しながらパラメータの一部を削除し、機械学習パイプラインのレイテンシを低減する主要な方法の1つである。本稿では,学習時間と推論時間を組み合わせた新しいプルーニング手法FlexRelを提案する。性能評価の結果,FlexRelは高いプルーニング係数を達成でき,通常の精度目標に対して35%以上の帯域幅を節約できることがわかった。
論文参考訳（メタデータ） (2024-05-21T11:42:15Z)
NeuraChip: Accelerating GNN Computations with a Hash-based Decoupled Spatial Accelerator [3.926150707772004]
我々はGustavsonのアルゴリズムに基づく新しいGNN空間加速器であるNeuraChipを紹介する。 NeuraChipはスパース行列乗算における乗算と加算計算を分離する。我々はまた、包括的なパフォーマンス解析のためのオープンソース、サイクル精度、マルチスレッドモジュールシミュレータであるNeuraSimを提示する。
論文参考訳（メタデータ） (2024-04-23T20:51:09Z)
Green AI: A Preliminary Empirical Study on Energy Consumption in DL Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文参考訳（メタデータ） (2024-02-21T09:18:44Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文参考訳（メタデータ） (2024-01-08T17:29:16Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文参考訳（メタデータ） (2020-10-08T15:27:50Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。