Fugu-MT 論文翻訳(概要): Deep Compression for PyTorch Model Deployment on Microcontrollers

論文の概要: Deep Compression for PyTorch Model Deployment on Microcontrollers

arxiv url: http://arxiv.org/abs/2103.15972v1
Date: Mon, 29 Mar 2021 22:08:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-01 05:22:12.225620
Title: Deep Compression for PyTorch Model Deployment on Microcontrollers
Title（参考訳）: マイクロコントローラへのPyTorchモデル展開のための深部圧縮
Authors: Eren Dogan, H. Fatih Ugurdag, Hasan Unlu
Abstract要約: 本稿では、モデル圧縮、特にDeep CompressionをUnluのarXivに関する初期の研究に追加する。 LeNet-5モデルの場合、メモリフットプリントは12.45倍に削減され、推論速度は2.57倍に向上した。
参考スコア（独自算出の注目度）: 0.2578242050187029
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural network deployment on low-cost embedded systems, hence on microcontrollers (MCUs), has recently been attracting more attention than ever. Since MCUs have limited memory capacity as well as limited compute-speed, it is critical that we employ model compression, which reduces both memory and compute-speed requirements. In this paper, we add model compression, specifically Deep Compression, and further optimize Unlu's earlier work on arXiv, which efficiently deploys PyTorch models on MCUs. First, we prune the weights in convolutional and fully connected layers. Secondly, the remaining weights and activations are quantized to 8-bit integers from 32-bit floating-point. Finally, forward pass functions are compressed using special data structures for sparse matrices, which store only nonzero weights (without impacting performance and accuracy). In the case of the LeNet-5 model, the memory footprint was reduced by 12.45x, and the inference speed was boosted by 2.57x.
Abstract（参考訳）: 低コストな組み込みシステム、すなわちマイクロコントローラ(mcu)上でのニューラルネットワークのデプロイメントは、最近はこれまで以上に注目を集めている。 MCUはメモリ容量に制限があり、計算速度に制限があるため、我々はメモリと計算速度の両方の要求を減らすモデル圧縮を採用することが重要である。本稿では、モデル圧縮、特にDeep Compressionを追加し、MCUにPyTorchモデルを効率的にデプロイするarXivに関するUnluの初期の作業を最適化する。まず、重みを畳み込み層と完全連結層に重み付けする。次に、残りの重みとアクティベーションを32ビット浮動小数点から8ビット整数に量子化する。最後に、フォワードパス関数はスパース行列のための特別なデータ構造を使用して圧縮される。 LeNet-5モデルの場合、メモリフットプリントは12.45倍に削減され、推論速度は2.57倍に向上した。

関連論文リスト

CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文参考訳（メタデータ） (2025-06-23T17:50:11Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。 textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文参考訳（メタデータ） (2024-10-31T13:26:11Z)
NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks [30.224822087562163]
NeuZipはニューラルネットワークにおける浮動小数点数のエントロピーに基づく新しい重み圧縮方式である。 Llama-3 8Bモデルのメモリフットプリントを31GBから16GB以下に大幅に削減した。推定では, ほぼロスレス性能を維持しながら, メモリ使用量を半減することができる。
論文参考訳（メタデータ） (2024-10-28T01:12:20Z)
Less Memory Means smaller GPUs: Backpropagation with Compressed Activations [1.7065506903618906]
深層ニューラルネットワーク(DNN)の規模は、計算リソースの要件が等しく急速に増大している。最近の多くのアーキテクチャ、特にLarge Language Modelsは、何千ものアクセラレーターを持つスーパーコンピュータを使って訓練されなければならない。このアプローチにより、より長いトレーニングスケジュールのコストで、ピークメモリ使用量を29%削減することが可能になります。
論文参考訳（メタデータ） (2024-09-18T11:57:05Z)
"Lossless" Compression of Deep Neural Networks: A High-dimensional Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文参考訳（メタデータ） (2024-03-01T03:46:28Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文参考訳（メタデータ） (2021-10-28T17:58:45Z)
Leveraging Automated Mixed-Low-Precision Quantization for tiny edge microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文参考訳（メタデータ） (2020-08-12T06:09:58Z)
Efficient Neural Network Deployment for Microcontroller [0.0]
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
論文参考訳（メタデータ） (2020-07-02T19:21:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。