Fugu-MT 論文翻訳(概要): Hermes: Memory-Efficient Pipeline Inference for Large Models on Edge Devices

論文の概要: Hermes: Memory-Efficient Pipeline Inference for Large Models on Edge Devices

arxiv url: http://arxiv.org/abs/2409.04249v2
Date: Mon, 9 Sep 2024 18:25:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 12:24:07.296826
Title: Hermes: Memory-Efficient Pipeline Inference for Large Models on Edge Devices
Title（参考訳）: Hermes:エッジデバイス上の大規模モデルに対するメモリ効率の良いパイプライン推論
Authors: Xueyuan Han, Zinuo Cai, Yichu Zhang, Chongxin Fan, Junhan Liu, Ruhui Ma, Rajkumar Buyya,
Abstract要約: 本稿では,メモリ効率の高いパイプライン実行機構であるPIPELOADを紹介する。動的メモリ管理を取り入れることでメモリ使用量を削減し、推論遅延を最小限にする。本稿では,エッジデバイス上での大規模モデル推論に最適化されたフレームワークであるHermesを紹介する。
参考スコア（独自算出の注目度）: 19.96064012736243
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The application of Transformer-based large models has achieved numerous success in recent years. However, the exponential growth in the parameters of large models introduces formidable memory challenge for edge deployment. Prior works to address this challenge mainly focus on optimizing the model structure and adopting memory swapping methods. However, the former reduces the inference accuracy, and the latter raises the inference latency. This paper introduces PIPELOAD, a novel memory-efficient pipeline execution mechanism. It reduces memory usage by incorporating dynamic memory management and minimizes inference latency by employing parallel model loading. Based on PIPELOAD mechanism, we present Hermes, a framework optimized for large model inference on edge devices. We evaluate Hermes on Transformer-based models of different sizes. Our experiments illustrate that Hermes achieves up to 4.24 X increase in inference speed and 86.7% lower memory consumption than the state-of-the-art pipeline mechanism for BERT and ViT models, 2.58 X increase in inference speed and 90.3% lower memory consumption for GPT-style models.
Abstract（参考訳）: トランスフォーマーベースの大規模モデルの応用は近年、多くの成功を収めている。しかし,大規模モデルのパラメータの指数関数的増加は,エッジ展開に強い記憶障害をもたらす。この課題に対処する以前の作業は、主にモデル構造を最適化し、メモリスワップメソッドを採用することに焦点を当てていた。しかし、前者は推論精度を低下させ、後者は推論遅延を増大させる。本稿では,メモリ効率の高いパイプライン実行機構であるPIPELOADを紹介する。動的メモリ管理を取り入れることでメモリ使用量を削減し、並列モデルローディングを利用することで推論遅延を最小限にする。 PIPELOAD機構に基づいて,エッジデバイス上での大規模モデル推論に最適化されたHermesを提案する。異なるサイズのトランスフォーマーモデル上でHermesを評価する。提案実験は,BERTモデルとViTモデルにおける最新のパイプライン機構よりも最大4.24倍の推論速度,86.7%のメモリ消費,2.58倍の推論速度,90.3%のGPTモデルにおけるメモリ消費を実現していることを示す。

関連論文リスト

Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。 CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。 CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文参考訳（メタデータ） (2024-11-26T15:13:15Z)
Ultra-Sparse Memory Network [8.927205198458994]
この研究はUltraMemを導入し、これらの制限に対処するために大規模な超スパースメモリ層を組み込んだ。提案手法は,与えられた計算予算内で,最先端の推論速度とモデル性能を実現する。
論文参考訳（メタデータ） (2024-11-19T09:24:34Z)
FluidML: Fast and Memory Efficient Inference Optimization [3.7676096626244986]
我々は,汎用ランタイムメモリ管理および最適化フレームワークであるFluidMLを提案する。一般的な言語モデルでは、FluidMLはエンドツーエンドの推論遅延を最大25.38%削減できることを示す。また、FluidMLは最先端のアプローチと比較してピークメモリ使用量を最大41.47%削減できることを示す。
論文参考訳（メタデータ） (2024-11-14T07:16:23Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文参考訳（メタデータ） (2024-03-21T04:31:59Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文参考訳（メタデータ） (2022-11-09T18:50:38Z)
DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale [20.558091867632445]
DeepSpeed Inferenceは、トランスフォーマーモデル推論のための包括的なシステムソリューションである。レイテンシ指向シナリオの最先端よりもレイテンシを最大7.3倍削減し、スループット指向シナリオのスループットを1.5倍向上する。 GPUのみのソリューションよりも25倍大きなモデルを推論でき、高いスループットは84 TFLOPS(A6000ピークの50ドル以上)を提供する。
論文参考訳（メタデータ） (2022-06-30T18:01:08Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Memory-efficient Speech Recognition on Smart Devices [15.015948023187809]
リカレントトランスデューサモデルは、スマートデバイス上での音声認識のための有望なソリューションとして登場した。これらのモデルは、デバイスのバッテリー寿命に悪影響を及ぼす入力時間ステップ毎のオフチップメモリからパラメータにアクセスし、低消費電力デバイスでのユーザビリティを制限する。トランスデューサモデルのメモリアクセスに関する懸念を、モデルアーキテクチャの最適化と新規なリカレントセル設計により解決します。
論文参考訳（メタデータ） (2021-02-23T07:43:45Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。