論文の概要: Quantization of Large Language Models with an Overdetermined Basis
- arxiv url: http://arxiv.org/abs/2404.09737v1
- Date: Mon, 15 Apr 2024 12:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:30:43.235624
- Title: Quantization of Large Language Models with an Overdetermined Basis
- Title(参考訳): 過剰決定基底を用いた大規模言語モデルの量子化
- Authors: Daniil Merkulov, Daria Cherniuk, Alexander Rudikov, Ivan Oseledets, Ekaterina Muravleva, Aleksandr Mikhalev, Boris Kashin,
- Abstract要約: 本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 73.79368761182998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce an algorithm for data quantization based on the principles of Kashin representation. This approach hinges on decomposing any given vector, matrix, or tensor into two factors. The first factor maintains a small infinity norm, while the second exhibits a similarly constrained norm when multiplied by an orthogonal matrix. Surprisingly, the entries of factors after decomposition are well-concentrated around several peaks, which allows us to efficiently replace them with corresponding centroids for quantization purposes. We study the theoretical properties of the proposed approach and rigorously evaluate our compression algorithm in the context of next-word prediction tasks and on a set of downstream tasks for text classification. Our findings demonstrate that Kashin Quantization achieves competitive or superior quality in model performance while ensuring data compression, marking a significant advancement in the field of data quantization.
- Abstract(参考訳): 本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
このアプローチは、任意のベクトル、行列、あるいはテンソルを2つの因子に分解することに基づいている。
第一の因子は小さな無限大ノルムを保ち、第二の因子は直交行列に乗じるときも同様に制約されたノルムを示す。
驚いたことに、分解後の因子の成分は、いくつかのピークで十分に濃縮されており、量子化のために対応するセントロイドに効率的に置き換えることができる。
本稿では,提案手法の理論的特性について検討し,次の単語予測タスクの文脈およびテキスト分類のための下流タスクのセットにおける圧縮アルゴリズムの厳密な評価を行う。
以上の結果から, カシ量子化はデータ圧縮を保証しつつ, モデル性能の競争力や優れた品質を実現し, データの量子化の分野における大きな進歩を示している。
関連論文リスト
- AsymKV: Enabling 1-Bit Quantization of KV Cache with Layer-Wise Asymmetric Quantization Configurations [36.63586957377984]
大規模な言語モデルは、しばしばかなりのストレージスペースを必要とする。
パラメータ数が膨大であるため、これらのモデルは大きなストレージスペースを必要とすることが多い。
1つの研究方向は、浮動小数点数の整数置換を用いてモデルを圧縮することを提案する。
論文 参考訳(メタデータ) (2024-10-17T04:35:57Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。
決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。
本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-11T15:20:54Z) - Quantized Sparse Weight Decomposition for Neural Network Compression [12.24566619983231]
このアプローチは,重み付きSVD,ベクトル量子化,スパースPCAの統一であると考えられる。
本手法は,ベクトル量子化法や極端圧縮法とは異なり,中等度圧縮法にも適用可能である。
論文 参考訳(メタデータ) (2022-07-22T12:40:03Z) - Learning a Compressive Sensing Matrix with Structural Constraints via
Maximum Mean Discrepancy Optimization [17.104994036477308]
本稿では,圧縮センシング関連回復問題に対する測定行列を得るための学習に基づくアルゴリズムを提案する。
ニューラルネットワーク関連のトピックにおけるこのようなメトリクスの最近の成功は、機械学習に基づく問題の解決策を動機付けている。
論文 参考訳(メタデータ) (2021-10-14T08:35:54Z) - Quantum Algorithms for Data Representation and Analysis [68.754953879193]
機械学習におけるデータ表現のための固有problemsの解を高速化する量子手続きを提供する。
これらのサブルーチンのパワーと実用性は、主成分分析、対応解析、潜在意味解析のための入力行列の大きさのサブ線形量子アルゴリズムによって示される。
その結果、入力のサイズに依存しない実行時のパラメータは妥当であり、計算モデル上の誤差が小さいことが示され、競合的な分類性能が得られる。
論文 参考訳(メタデータ) (2021-04-19T00:41:43Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - Embedding Compression with Isotropic Iterative Quantization [40.567720430910725]
単語の連続表現は、ディープラーニングベースのNLPモデルの標準コンポーネントである。
埋め込みベクトルを2進数に圧縮するための等方的反復量子化(IIQ)手法を提案する。
論文 参考訳(メタデータ) (2020-01-11T20:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。