論文の概要: Low-Rank Compression for IMC Arrays
- arxiv url: http://arxiv.org/abs/2502.07820v1
- Date: Mon, 10 Feb 2025 08:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:45:39.410306
- Title: Low-Rank Compression for IMC Arrays
- Title(参考訳): IMCアレイの低域圧縮
- Authors: Kang Eun Jeon, Johnny Rhe, Jong Hwan Ko,
- Abstract要約: 低ランク圧縮は、それ自身の課題、すなわち、最適なIMCアレイの利用と、妥協された精度を示す。
提案手法は,既存の刈り取り技術に比べて最大2.5倍の高速化または+20.9%の精度向上を実現する。
- 参考スコア(独自算出の注目度): 7.315486393304946
- License:
- Abstract: In this study, we address the challenge of low-rank model compression in the context of in-memory computing (IMC) architectures. Traditional pruning approaches, while effective in model size reduction, necessitate additional peripheral circuitry to manage complex dataflows and mitigate dislocation issues, leading to increased area and energy overheads. To circumvent these drawbacks, we propose leveraging low-rank compression techniques, which, unlike pruning, streamline the dataflow and seamlessly integrate with IMC architectures. However, low-rank compression presents its own set of challenges, namely i) suboptimal IMC array utilization and ii) compromised accuracy. To address these issues, we introduce a novel approach i) employing shift and duplicate kernel (SDK) mapping technique, which exploits idle IMC columns for parallel processing, and ii) group low-rank convolution, which mitigates the information imbalance in the decomposed matrices. Our experimental results demonstrate that our proposed method achieves up to 2.5x speedup or +20.9% accuracy boost over existing pruning techniques.
- Abstract(参考訳): 本研究では,インメモリ・コンピューティング(IMC)アーキテクチャにおける低ランクモデル圧縮の課題に対処する。
従来のプルーニングアプローチはモデルサイズの削減に有効であるが、複雑なデータフローを管理し、転位問題を緩和するために周辺回路の追加が必要であるため、面積とエネルギーのオーバーヘッドが増大する。
これらの欠点を回避するために、我々は、プルーニングとは異なり、データフローを合理化し、IMCアーキテクチャとシームレスに統合する低ランク圧縮技術を活用することを提案する。
しかし、低ランク圧縮は、独自の課題、すなわち、その集合を提示する。
一 最適IMCアレイの活用及び利用
二 精度を損ねたこと。
これらの問題に対処するために,我々は新しいアプローチを導入する。
一 並列処理にアイドルIMCカラムを利用するシフト及び重複カーネル(SDK)マッピング技術を用いること。
二 分解された行列における情報の不均衡を緩和するグループ低ランクの畳み込み
実験の結果,提案手法は既存の刈り取り技術に比べて最大2.5倍の高速化または+20.9%の精度向上を達成できることがわかった。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Minimum Entropy Coupling with Bottleneck [22.409716686394525]
本稿では,対数損失下で動作する新しい損失圧縮フレームワークについて検討する。
特に、共同圧縮と検索を必要とするアプリケーションや、処理による分散シフトを伴うシナリオに関係している。
提案した定式化は、ボトルネックを統合することにより、古典的な最小エントロピー結合フレームワークを拡張していることを示す。
論文 参考訳(メタデータ) (2024-10-29T02:19:07Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z) - Error Feedback Can Accurately Compress Preconditioners [43.60787513716217]
ディープ・ネットワークの規模での損失に関する2次情報を活用することは、ディープ・ラーニングのための電流の性能を改善するための主要なアプローチの1つである。
しかし、GGT (Full-Matrix Adagrad) やM-FAC (Matrix-Free Approximate Curvature) のような、正確な完全行列プリコンディショニングのための既存のアプローチは、小規模モデルにも適用した場合に膨大なストレージコストを被る。
本稿では, コンバージェンスを損なうことなく, プリコンディショナーを最大2桁圧縮できる新しい, 効率的なエラーフィードバック手法により, この問題に対処する。
論文 参考訳(メタデータ) (2023-06-09T17:58:47Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。