論文の概要: Efficient Reprogramming of Memristive Crossbars for DNNs: Weight Sorting and Bit Stucking
- arxiv url: http://arxiv.org/abs/2410.21730v1
- Date: Tue, 29 Oct 2024 04:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:21.718893
- Title: Efficient Reprogramming of Memristive Crossbars for DNNs: Weight Sorting and Bit Stucking
- Title(参考訳): DNNのためのmemristive Crossbarsの効率的な再プログラミング:ウェイトソーティングとビットスタッキング
- Authors: Matheus Farias, H. T. Kung,
- Abstract要約: 深層ニューラルネットワーク(DNN)のためのビットスライクな計算-イン-メモリクロスバー上でのmemristorの再プログラミングに必要な時間を削減するための新しい手法を提案する。
我々のアイデアは、不揮発性メモリの持続時間に制限を課し、再プログラムできる回数を制限する。
また,ResNet-50では3.7倍,ViT-Baseでは21倍,モデルの精度は1%の範囲で大幅に低下した。
- 参考スコア(独自算出の注目度): 4.089232204089156
- License:
- Abstract: We introduce a novel approach to reduce the number of times required for reprogramming memristors on bit-sliced compute-in-memory crossbars for deep neural networks (DNNs). Our idea addresses the limited non-volatile memory endurance, which restrict the number of times they can be reprogrammed. To reduce reprogramming demands, we employ two techniques: (1) we organize weights into sorted sections to schedule reprogramming of similar crossbars, maximizing memristor state reuse, and (2) we reprogram only a fraction of randomly selected memristors in low-order columns, leveraging their bit-level distribution and recognizing their relatively small impact on model accuracy. We evaluate our approach for state-of-the-art models on the ImageNet-1K dataset. We demonstrate a substantial reduction in crossbar reprogramming by 3.7x for ResNet-50 and 21x for ViT-Base, while maintaining model accuracy within a 1% margin.
- Abstract(参考訳): 本稿では,深層ニューラルネットワーク(DNN)のためのビットスライクな計算-イン-メモリクロスバー上で,memristorの再プログラミングに必要な時間を削減するための新しい手法を提案する。
我々のアイデアは、不揮発性メモリの持続時間に制限を課し、再プログラムできる回数を制限する。
我々は,(1)類似のクロスバーの再プログラミングをスケジュールするために,重みをソートしたセクションに整理し,memristor状態の再利用を最大化し,(2)低次の列においてランダムに選択されたmemristorのごく一部だけを再プログラムし,ビットレベルの分布を活用して,モデルの精度に比較的小さな影響を認識させる。
我々は,ImageNet-1Kデータセットを用いた最先端モデルに対するアプローチを評価する。
また,ResNet-50では3.7倍,ViT-Baseでは21倍,モデルの精度は1%の範囲で大幅に低下した。
関連論文リスト
- RepCNN: Micro-sized, Mighty Models for Wakeword Detection [3.4888176891918654]
常時オンの機械学習モデルは、非常に少ないメモリと計算フットプリントを必要とする。
より大規模なマルチブランチアーキテクチャへの計算によって、小さな畳み込みモデルをよりよく訓練できることが示される。
我々は、常時起動するウェイクワード検出モデルであるRepCNNが、推論中のレイテンシと精度のトレードオフを良好に提供することを示す。
論文 参考訳(メタデータ) (2024-06-04T16:14:19Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - MST-compression: Compressing and Accelerating Binary Neural Networks
with Minimum Spanning Tree [21.15961593182111]
エッジコンピューティングデバイスにおける計算コストとメモリストレージを削減するために、バイナリニューラルネットワーク(BNN)が広く採用されている。
しかしながら、ニューラルネットワークが精度を向上し、実用的な要件を満たすためにより広く、より深くなるにつれて、計算の負担はバイナリバージョンにおいても大きな課題である。
本稿では,BNNの圧縮と高速化を学習する,最小スパンニングツリー(MST)圧縮法を提案する。
論文 参考訳(メタデータ) (2023-08-26T02:42:12Z) - Sparse Binary Transformers for Multivariate Time Series Modeling [1.3965477771846404]
軽量圧縮ニューラルネットワークは,高密度浮動小数点変換器に匹敵する精度が得られることを示す。
本モデルは,3つの時系列学習課題 – 分類,異常検出,単段階予測 – で良好な結果が得られる。
本稿では,パラメータ数,ビットサイズ,浮動小数点演算(FLOP)数など,さまざまな指標に対するアプローチの計算的節約度を測定した。
論文 参考訳(メタデータ) (2023-08-09T00:23:04Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Tied & Reduced RNN-T Decoder [0.0]
認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
我々の予測ネットワークは入力埋め込みの簡単な重み付けを行い、その埋め込み行列重みを結合ネットワークの出力層と共有する。
このシンプルな設計は、追加の編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。
論文 参考訳(メタデータ) (2021-09-15T18:19:16Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - SME: ReRAM-based Sparse-Multiplication-Engine to Squeeze-Out Bit
Sparsity of Neural Network [18.79036546647254]
我々はSparse-Multiplication-Engine(SME)という新しいReRAMベースのディープニューラルネットワーク(DNN)アクセラレータを開発した。
まず、ビットスパースパターンを編成し、既存の量子化法に基づいてビットスパース密度を増加させる。
第2に,重みのビットをクロスバーにスライスし,周辺回路の活性化結果をスプライシングする新しい重み付けマッピング機構を提案する。
第三に、上質な押出し方式は、以前の2つのステップから高度にスパースなノンゼロでマッピングされたクロスバーを空にする。
論文 参考訳(メタデータ) (2021-03-02T13:27:15Z) - Enabling certification of verification-agnostic networks via
memory-efficient semidefinite programming [97.40955121478716]
本稿では,ネットワークアクティベーションの総数にのみ線形なメモリを必要とする一階二重SDPアルゴリズムを提案する。
L-inf の精度は 1% から 88% ,6% から 40% に改善した。
また,変分オートエンコーダの復号器に対する2次安定性仕様の厳密な検証を行った。
論文 参考訳(メタデータ) (2020-10-22T12:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。