Fugu-MT 論文翻訳(概要): Network Memory Footprint Compression Through Jointly Learnable Codebooks and Mappings

論文の概要: Network Memory Footprint Compression Through Jointly Learnable Codebooks and Mappings

arxiv url: http://arxiv.org/abs/2309.17361v1
Date: Fri, 29 Sep 2023 16:04:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 12:41:08.591611
Title: Network Memory Footprint Compression Through Jointly Learnable Codebooks and Mappings
Title（参考訳）: 学習可能なコードブックとマッピングによるネットワークメモリフットプリント圧縮
Authors: Edouard Yvinec, Arnaud Dapogny, Kevin Bailly
Abstract要約: 量子化は、高精度テンソルを低精度でメモリ効率の良いフォーマットにマッピングするため、好ましい解である。メモリフットプリントの削減に関して、最も効果的なバリエーションはコードブックに基づいている。本稿では,近年の勾配に基づくポストトレーニング量子化手法と類似性を有するコードブックとウェイトマッピングの合同学習を提案する。
参考スコア（独自算出の注目度）: 23.1120983784623
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The massive interest in deep neural networks (DNNs) for both computer vision and natural language processing has been sparked by the growth in computational power. However, this led to an increase in the memory footprint, to a point where it can be challenging to simply load a model on commodity devices such as mobile phones. To address this limitation, quantization is a favored solution as it maps high precision tensors to a low precision, memory efficient format. In terms of memory footprint reduction, its most effective variants are based on codebooks. These methods, however, suffer from two limitations. First, they either define a single codebook for each tensor, or use a memory-expensive mapping to multiple codebooks. Second, gradient descent optimization of the mapping favors jumps toward extreme values, hence not defining a proximal search. In this work, we propose to address these two limitations. First, we initially group similarly distributed neurons and leverage the re-ordered structure to either apply different scale factors to the different groups, or map weights that fall in these groups to several codebooks, without any mapping overhead. Second, stemming from this initialization, we propose a joint learning of the codebook and weight mappings that bears similarities with recent gradient-based post-training quantization techniques. Third, drawing estimation from straight-through estimation techniques, we introduce a novel gradient update definition to enable a proximal search of the codebooks and their mappings. The proposed jointly learnable codebooks and mappings (JLCM) method allows a very efficient approximation of any DNN: as such, a Llama 7B can be compressed down to 2Go and loaded on 5-year-old smartphones.
Abstract（参考訳）: コンピュータビジョンと自然言語処理の両方に対するディープニューラルネットワーク(DNN)に対する大きな関心は、計算能力の増大によって引き起こされている。しかし、これはメモリフットプリントの増加につながり、携帯電話のようなコモディティデバイスにモデルを簡単にロードすることが困難になった。この制限に対処するため、量子化は高い精度のテンソルを低い精度でメモリ効率の良いフォーマットにマッピングするので好ましい解である。メモリフットプリントの削減に関して、最も効果的なバリエーションはコードブックに基づいている。しかし、これらの方法には2つの制限がある。まず、テンソルごとに1つのコードブックを定義するか、複数のコードブックへのメモリ拡張マッピングを使用する。第二に、写像の勾配降下最適化は極値に向かってジャンプし、従って近位探索を定義しない。本稿では,この2つの制約に対処することを提案する。まず、最初は同様に分散したニューロンをグループ化し、並べ替えられた構造を利用して異なるグループに異なるスケール要素を適用するか、あるいはこれらのグループに該当する重みをマッピングのオーバーヘッドなく複数のコードブックにマップする。次に,この初期化を契機に,最近のグラデーション・トレーニング後の量子化手法と類似性を持つコードブックと重み付けマッピングの合同学習を提案する。第3に,ストレートスルー推定手法によるドローイング推定を行い,コードブックとそのマッピングの近位探索を可能にする新しい勾配更新定義を導入する。提案した共同学習可能なコードブックとマッピング(JLCM)法は,任意のDNNの極めて効率的な近似を可能にする。

関連論文リスト

A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
VQ4ALL: Efficient Neural Network Representation via a Universal Codebook [7.369445527610879]
VQ4ALLは、コードワードを利用して様々なニューラルネットワークの構築を可能にするVQベースの手法である。 VQ4ALLは圧縮レートが16ドルを超え、複数のネットワークアーキテクチャで高い精度を保っている。
論文参考訳（メタデータ） (2024-12-09T16:17:22Z)
Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。 IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文参考訳（メタデータ） (2024-12-03T18:59:10Z)
LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。 LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文参考訳（メタデータ） (2024-04-04T01:59:19Z)
Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling [15.132926378740882]
本稿では、事前学習された言語モデルからVQIMへ、十分に訓練されたコードブックを転送することを目的とした、VQCTというパート・オブ・音声による新しいコードブック転送フレームワークを提案する。 4つのデータセットに対する実験結果から,VQCT法は従来の最先端手法よりも優れたVQIM性能が得られることが示された。
論文参考訳（メタデータ） (2024-03-15T07:24:13Z)
Spherical and Hyperbolic Toric Topology-Based Codes On Graph Embedding for Ising MRF Models: Classical and Quantum Topology Machine Learning [0.11805137592431453]
本稿では,Isingモデルの基底状態を記述するための情報幾何学の適用について紹介する。このアプローチは、機械学習とエラー訂正コーディングの関連性を確立する。
論文参考訳（メタデータ） (2023-07-28T19:38:13Z)
Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T02:15:53Z)
Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文参考訳（メタデータ） (2023-05-19T14:56:05Z)
Improving Dual-Encoder Training through Dynamic Indexes for Negative Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文参考訳（メタデータ） (2023-03-27T15:18:32Z)
Fast offset corrected in-memory training [0.0]
インメモリコンピューティングのための新しいアルゴリズムと改良アルゴリズムを2つ提案する。 Chopped-TTv2 (c-TTv2) と Analog Gradient Accumulation with Dynamic Reference (AGAD) は同じランタイムの複雑さを維持しているが、チョッパーを使用した残りのオフセットに対して正しい。
論文参考訳（メタデータ） (2023-03-08T17:07:09Z)
GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文参考訳（メタデータ） (2022-07-18T06:01:29Z)
Re2G: Retrieve, Rerank, Generate [14.848179433828252]
ニューラル初期検索とBARTに基づくシーケンス・ツー・シーケンス生成を併用したRe2Gを提案する。エンド・ツー・エンドをトレーニングするために,本システムでは,対象シーケンスの出力に対して,基礎的真理のみを用いて,知識蒸留の新たなバリエーションを導入し,初期検索,再ランカ,生成を訓練する。 KILTのリーダーボード上では、ゼロショットスロットフィリング、質問応答、ファクトチェック、ダイアログの4つのタスクにおいて、従来の最先端よりも9%から34%向上した。
論文参考訳（メタデータ） (2022-07-13T15:51:40Z)
Permute, Quantize, and Fine-tune: Efficient Compression of Neural Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文参考訳（メタデータ） (2020-10-29T15:47:26Z)
Sparse Graphical Memory for Robust Planning [93.39298821537197]
スパースメモリに状態と実現可能な遷移を格納する新しいデータ構造であるスパースグラフィカルメモリ(SGM)を導入する。 SGMは、ゴール条件付きRLに古典的状態集約基準を適用し、新しい双方向整合目標に従って状態を集約する。本研究では, SGM が, 遠近法, スパース・リワード視覚ナビゲーションタスクにおいて, 最先端の工法を著しく上回っていることを示す。
論文参考訳（メタデータ） (2020-03-13T17:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。