論文の概要: Network Memory Footprint Compression Through Jointly Learnable Codebooks
and Mappings
- arxiv url: http://arxiv.org/abs/2309.17361v1
- Date: Fri, 29 Sep 2023 16:04:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 12:41:08.591611
- Title: Network Memory Footprint Compression Through Jointly Learnable Codebooks
and Mappings
- Title(参考訳): 学習可能なコードブックとマッピングによるネットワークメモリフットプリント圧縮
- Authors: Edouard Yvinec, Arnaud Dapogny, Kevin Bailly
- Abstract要約: 量子化は、高精度テンソルを低精度でメモリ効率の良いフォーマットにマッピングするため、好ましい解である。
メモリフットプリントの削減に関して、最も効果的なバリエーションはコードブックに基づいている。
本稿では,近年の勾配に基づくポストトレーニング量子化手法と類似性を有するコードブックとウェイトマッピングの合同学習を提案する。
- 参考スコア(独自算出の注目度): 23.1120983784623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The massive interest in deep neural networks (DNNs) for both computer vision
and natural language processing has been sparked by the growth in computational
power. However, this led to an increase in the memory footprint, to a point
where it can be challenging to simply load a model on commodity devices such as
mobile phones. To address this limitation, quantization is a favored solution
as it maps high precision tensors to a low precision, memory efficient format.
In terms of memory footprint reduction, its most effective variants are based
on codebooks. These methods, however, suffer from two limitations. First, they
either define a single codebook for each tensor, or use a memory-expensive
mapping to multiple codebooks. Second, gradient descent optimization of the
mapping favors jumps toward extreme values, hence not defining a proximal
search. In this work, we propose to address these two limitations. First, we
initially group similarly distributed neurons and leverage the re-ordered
structure to either apply different scale factors to the different groups, or
map weights that fall in these groups to several codebooks, without any mapping
overhead. Second, stemming from this initialization, we propose a joint
learning of the codebook and weight mappings that bears similarities with
recent gradient-based post-training quantization techniques. Third, drawing
estimation from straight-through estimation techniques, we introduce a novel
gradient update definition to enable a proximal search of the codebooks and
their mappings. The proposed jointly learnable codebooks and mappings (JLCM)
method allows a very efficient approximation of any DNN: as such, a Llama 7B
can be compressed down to 2Go and loaded on 5-year-old smartphones.
- Abstract(参考訳): コンピュータビジョンと自然言語処理の両方に対するディープニューラルネットワーク(DNN)に対する大きな関心は、計算能力の増大によって引き起こされている。
しかし、これはメモリフットプリントの増加につながり、携帯電話のようなコモディティデバイスにモデルを簡単にロードすることが困難になった。
この制限に対処するため、量子化は高い精度のテンソルを低い精度でメモリ効率の良いフォーマットにマッピングするので好ましい解である。
メモリフットプリントの削減に関して、最も効果的なバリエーションはコードブックに基づいている。
しかし、これらの方法には2つの制限がある。
まず、テンソルごとに1つのコードブックを定義するか、複数のコードブックへのメモリ拡張マッピングを使用する。
第二に、写像の勾配降下最適化は極値に向かってジャンプし、従って近位探索を定義しない。
本稿では,この2つの制約に対処することを提案する。
まず、最初は同様に分散したニューロンをグループ化し、並べ替えられた構造を利用して異なるグループに異なるスケール要素を適用するか、あるいはこれらのグループに該当する重みをマッピングのオーバーヘッドなく複数のコードブックにマップする。
次に,この初期化を契機に,最近のグラデーション・トレーニング後の量子化手法と類似性を持つコードブックと重み付けマッピングの合同学習を提案する。
第3に,ストレートスルー推定手法によるドローイング推定を行い,コードブックとそのマッピングの近位探索を可能にする新しい勾配更新定義を導入する。
提案した共同学習可能なコードブックとマッピング(JLCM)法は,任意のDNNの極めて効率的な近似を可能にする。
関連論文リスト
- LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Accelerating Hierarchical Associative Memory: A Deep Equilibrium
Approach [12.829893293085732]
階層型連想記憶モデルにおいて,メモリ検索を高速化する2つの手法を提案する。
まず、より高速で安定した解法を利用できるDeep Equilibrium Modelsとしてキャストする方法を示す。
第2に、以前の研究から着想を得た結果、偶数層と奇数層を交互に最適化することで、メモリの検索を2倍近く加速することを示した。
論文 参考訳(メタデータ) (2023-11-27T10:02:12Z) - Spherical and Hyperbolic Toric Topology-Based Codes On Graph Embedding
for Ising MRF Models: Classical and Quantum Topology Machine Learning [0.11805137592431453]
本稿では,Isingモデルの基底状態を記述するための情報幾何学の適用について紹介する。
このアプローチは、機械学習とエラー訂正コーディングの関連性を確立する。
論文 参考訳(メタデータ) (2023-07-28T19:38:13Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Fast offset corrected in-memory training [0.0]
インメモリコンピューティングのための新しいアルゴリズムと改良アルゴリズムを2つ提案する。
Chopped-TTv2 (c-TTv2) と Analog Gradient Accumulation with Dynamic Reference (AGAD) は同じランタイムの複雑さを維持しているが、チョッパーを使用した残りのオフセットに対して正しい。
論文 参考訳(メタデータ) (2023-03-08T17:07:09Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Re2G: Retrieve, Rerank, Generate [14.848179433828252]
ニューラル初期検索とBARTに基づくシーケンス・ツー・シーケンス生成を併用したRe2Gを提案する。
エンド・ツー・エンドをトレーニングするために,本システムでは,対象シーケンスの出力に対して,基礎的真理のみを用いて,知識蒸留の新たなバリエーションを導入し,初期検索,再ランカ,生成を訓練する。
KILTのリーダーボード上では、ゼロショットスロットフィリング、質問応答、ファクトチェック、ダイアログの4つのタスクにおいて、従来の最先端よりも9%から34%向上した。
論文 参考訳(メタデータ) (2022-07-13T15:51:40Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - Sparse Graphical Memory for Robust Planning [93.39298821537197]
スパースメモリに状態と実現可能な遷移を格納する新しいデータ構造であるスパースグラフィカルメモリ(SGM)を導入する。
SGMは、ゴール条件付きRLに古典的状態集約基準を適用し、新しい双方向整合目標に従って状態を集約する。
本研究では, SGM が, 遠近法, スパース・リワード視覚ナビゲーションタスクにおいて, 最先端の工法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-13T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。