Fugu-MT 論文翻訳(概要): PockEngine: Sparse and Efficient Fine-tuning in a Pocket

論文の概要: PockEngine: Sparse and Efficient Fine-tuning in a Pocket

arxiv url: http://arxiv.org/abs/2310.17752v1
Date: Thu, 26 Oct 2023 19:46:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 15:48:28.628706
Title: PockEngine: Sparse and Efficient Fine-tuning in a Pocket
Title（参考訳）: PockEngine: ポケットの中のスパースで効率的なファインチューニング
Authors: Ligeng Zhu, Lanxiang Hu, Ji Lin, Wei-Chen Wang, Wei-Ming Chen, Chuang Gan, Song Han
Abstract要約: さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。 PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
参考スコア（独自算出の注目度）: 62.955793932377524
License: http://creativecommons.org/licenses/by/4.0/
Abstract: On-device learning and efficient fine-tuning enable continuous and privacy-preserving customization (e.g., locally fine-tuning large language models on personalized data). However, existing training frameworks are designed for cloud servers with powerful accelerators (e.g., GPUs, TPUs) and lack the optimizations for learning on the edge, which faces challenges of resource limitations and edge hardware diversity. We introduce PockEngine: a tiny, sparse and efficient engine to enable fine-tuning on various edge devices. PockEngine supports sparse backpropagation: it prunes the backward graph and sparsely updates the model with measured memory saving and latency reduction while maintaining the model quality. Secondly, PockEngine is compilation first: the entire training graph (including forward, backward and optimization steps) is derived at compile-time, which reduces the runtime overhead and brings opportunities for graph transformations. PockEngine also integrates a rich set of training graph optimizations, thus can further accelerate the training cost, including operator reordering and backend switching. PockEngine supports diverse applications, frontends and hardware backends: it flexibly compiles and tunes models defined in PyTorch/TensorFlow/Jax and deploys binaries to mobile CPU/GPU/DSPs. We evaluated PockEngine on both vision models and large language models. PockEngine achieves up to 15 $\times$ speedup over off-the-shelf TensorFlow (Raspberry Pi), 5.6 $\times$ memory saving back-propagation (Jetson AGX Orin). Remarkably, PockEngine enables fine-tuning LLaMav2-7B on NVIDIA Jetson AGX Orin at 550 tokens/s, 7.9$\times$ faster than the PyTorch.
Abstract（参考訳）: オンデバイス学習と効率的な微調整は、継続的かつプライバシーを保ったカスタマイズを可能にする(例えば、パーソナライズされたデータ上で大きな言語モデルをローカルに微調整する)。しかし、既存のトレーニングフレームワークは、強力なアクセラレータ(GPU、TPUなど)を持つクラウドサーバ向けに設計されており、リソース制限やエッジハードウェアの多様性といった課題に直面しているエッジで学ぶための最適化が欠けている。さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。 PockEngineはスパースバックプロパゲーションをサポートし、モデル品質を維持しながら、後方グラフをプルークし、測定メモリの節約と遅延低減でモデルをスパース更新する。次に、pockengineがコンパイルファーストである。トレーニンググラフ全体(前方、後方、最適化ステップを含む)はコンパイル時に導き出され、ランタイムのオーバーヘッドが削減され、グラフ変換の機会がもたらされる。 pockengineはまた、豊富なトレーニンググラフ最適化を統合しており、オペレータの再注文やバックエンドスイッチなど、トレーニングコストをさらに加速することができる。 PyTorch/TensorFlow/Jaxで定義されたモデルを柔軟にコンパイルし、チューニングし、モバイルCPU/GPU/DSPにバイナリをデプロイする。我々はpockengineを視覚モデルと大規模言語モデルの両方で評価した。 PockEngineは、市販のTensorFlow(Raspberry Pi)よりも最大15$\times$スピードアップし、5.6$\times$メモリ節約バックプロパゲーション(Jetson AGX Orin)を実現している。注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。

関連論文リスト

PyGraph: Robust Compiler Support for CUDA Graphs in PyTorch [1.2334708058524546]
我々はPyTorch2内でNVIDIA Graphのパワーを自動で活用する新しいアプローチであるPyGraphを紹介する。我々はPyGraphをさまざまな機械学習ベンチマークで評価し、PyTorch2よりも大幅に性能を向上した。
論文参考訳（メタデータ） (2025-03-25T15:47:54Z)
BurTorch: Revisiting Training from First Principles by Coupling Autodiff, Math Optimization, and Systems [56.16884466478886]
BurTorchは、単一ノードワークステーション上でのディープラーニング(DL)トレーニングを最適化するために設計された、コンパクトな高性能フレームワークである。 BurTorchは最小限の設計を採用し、これらの状況下では、古典的なコンパイルされたプログラミング言語がDL研究において重要な役割を果たすことを証明している。
論文参考訳（メタデータ） (2025-03-18T00:52:12Z)
SparseTransX: Efficient Training of Translation-Based Knowledge Graph Embeddings Using Sparse Matrix Operations [1.5998912722142724]
知識グラフ(KG)学習は、新しい知識を生成し、推論を行うための強力なフレームワークを提供する。 KG埋め込みのトレーニングには、特に大規模なデータセットでは、非常に長い時間がかかる可能性がある。コア埋め込みをSpMMカーネルに置き換えることでこの問題に対処する。これにより、複数のスキャッタ操作を単一の操作として統一し、トレーニング時間とメモリ使用量を削減できます。
論文参考訳（メタデータ） (2025-02-24T08:21:48Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文参考訳（メタデータ） (2023-07-14T22:52:27Z)
InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。 InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文参考訳（メタデータ） (2023-03-29T17:59:58Z)
RAF: Holistic Compilation for Deep Learning Model Training [17.956035630476173]
本稿では,学習のための深層学習コンパイラであるRAFについて述べる。既存のDLCとは異なり、RAFはフォワードモデルを受け入れ、社内でトレーニンググラフを生成する。 RAFは、パフォーマンス、メモリ、分散トレーニングのためのグラフ最適化を体系的に統合することができる。
論文参考訳（メタデータ） (2023-03-08T17:51:13Z)
Slapo: A Schedule Language for Progressive Optimization of Large Deep Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。 SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文参考訳（メタデータ） (2023-02-16T00:34:53Z)
Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文参考訳（メタデータ） (2022-12-28T18:59:28Z)
SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-09-18T14:33:49Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
When deep learning models on GPU can be accelerated by taking advantage of unstructured sparsity [0.0]
本稿では、グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の効率向上に焦点をあてる。現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。畳み込み層の計算を高速化するために,直接スパース演算を用いることの価値を示す。
論文参考訳（メタデータ） (2020-11-12T10:13:48Z)
Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文参考訳（メタデータ） (2020-09-15T01:59:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。