論文の概要: LegoNet: Memory Footprint Reduction Through Block Weight Clustering
- arxiv url: http://arxiv.org/abs/2603.06606v1
- Date: Wed, 18 Feb 2026 12:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.424538
- Title: LegoNet: Memory Footprint Reduction Through Block Weight Clustering
- Title(参考訳): LegoNet:ブロック重みクラスタリングによるメモリフットプリント削減
- Authors: Joseph Bingham, Noah Green, Saman Zonouz,
- Abstract要約: textbfLegoNetは,モデル全体の重みのブロックをレイヤタイプやクラスタによらず構築する圧縮手法である。
Cifar-10とImageNetでトレーニングされたResNet-50を324x4ブロックで圧縮することができ、メモリフットプリントを textbf64x で圧縮できた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the need for neural network-based applications to become more accurate and powerful grows, so too does their size and memory footprint. With embedded devices, whose cache and RAM are limited, this growth hinders their ability to leverage state-of-the-art neural network architectures. In this work, we propose \textbf{LegoNet}, a compression technique that \textbf{constructs blocks of weights of the entire model regardless of layer type} and clusters these induced blocks. Using blocks instead of individual values to cluster the weights, we were able to compress ResNet-50 trained for Cifar-10 and ImageNet with only 32 4x4 blocks, compressing the memory footprint by over a factor of \textbf{64x without having to remove any weights} or changing the architecture and \textbf{no loss to accuracy}, nor retraining or any data, and show how to find an arrangement of 16 4x4 blocks that gives a compression ratio of \textbf{128x with less than 3\% accuracy loss}. This was all achieved with \textbf{no need for (re)training or fine-tuning}.
- Abstract(参考訳): ニューラルネットワークベースのアプリケーションがより正確でパワフルになる必要性が高まるにつれて、サイズやメモリフットプリントも大きくなる。
キャッシュとRAMが限られている組み込みデバイスでは、この成長は最先端のニューラルネットワークアーキテクチャを活用する能力を妨げている。
本研究では, モデル全体の重みのブロックを層の種類に関係なく構築する圧縮手法である \textbf{LegoNet} を提案し, これら誘導ブロックをクラスタ化する。
Cifar-10 と ImageNet でトレーニングされた ResNet-50 を 32 4x4 ブロックで圧縮し、メモリフットプリントを \textbf{64x の係数で圧縮したり、アーキテクチャや \textbf{no loss to accuracy} を変更したり、あるいはデータを再トレーニングしたり、あるいは、16 4x4 ブロックのアライメントを見つけ、その圧縮比率が 3\% 未満の精度損失で \textbf{128x となることを示すことができた。
これはすべて、(再)トレーニングや微調整が必要な \textbf{no で達成された。
関連論文リスト
- Compression is Routing: Reconstruction Error as an Intrinsic Signal for Modular Language Models [0.0]
「この論文は、圧縮は知性である」という前提に基づいている。」
それは新しいアーキテクチャ哲学を提唱している: 圧縮はルーティングである。
超長期のコンテキストを扱うために、VRAM圧縮の新たな視点を提供する。
論文 参考訳(メタデータ) (2025-12-18T09:02:03Z) - BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文 参考訳(メタデータ) (2024-10-31T13:26:11Z) - Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。
Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Deep Compression for PyTorch Model Deployment on Microcontrollers [0.2578242050187029]
本稿では、モデル圧縮、特にDeep CompressionをUnluのarXivに関する初期の研究に追加する。
LeNet-5モデルの場合、メモリフットプリントは12.45倍に削減され、推論速度は2.57倍に向上した。
論文 参考訳(メタデータ) (2021-03-29T22:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。