Fugu-MT 論文翻訳(概要): Matrix Compression via Randomized Low Rank and Low Precision Factorization

論文の概要: Matrix Compression via Randomized Low Rank and Low Precision Factorization

arxiv url: http://arxiv.org/abs/2310.11028v1
Date: Tue, 17 Oct 2023 06:56:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 17:23:34.871249
Title: Matrix Compression via Randomized Low Rank and Low Precision Factorization
Title（参考訳）: ランダム化低ランクと低精度因子化による行列圧縮
Authors: Rajarshi Saha, Varun Srivastava, Mert Pilanci
Abstract要約: 現代の行列は数十億の要素を巻き込み、そのストレージと処理は計算資源とメモリ使用量の観点から非常に要求される。この構造を利用して任意の行列 $mathbfA$ as $mathbfLmathbfR$ の低階分解を求めるアルゴリズムを提案する。 LlaMa-7$bの層を圧縮し,画像圧縮におけるアルゴリズムの有効性を実証的に実証した。
参考スコア（独自算出の注目度）: 47.902465710511485
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Matrices are exceptionally useful in various fields of study as they provide a convenient framework to organize and manipulate data in a structured manner. However, modern matrices can involve billions of elements, making their storage and processing quite demanding in terms of computational resources and memory usage. Although prohibitively large, such matrices are often approximately low rank. We propose an algorithm that exploits this structure to obtain a low rank decomposition of any matrix $\mathbf{A}$ as $\mathbf{A} \approx \mathbf{L}\mathbf{R}$, where $\mathbf{L}$ and $\mathbf{R}$ are the low rank factors. The total number of elements in $\mathbf{L}$ and $\mathbf{R}$ can be significantly less than that in $\mathbf{A}$. Furthermore, the entries of $\mathbf{L}$ and $\mathbf{R}$ are quantized to low precision formats $--$ compressing $\mathbf{A}$ by giving us a low rank and low precision factorization. Our algorithm first computes an approximate basis of the range space of $\mathbf{A}$ by randomly sketching its columns, followed by a quantization of the vectors constituting this basis. It then computes approximate projections of the columns of $\mathbf{A}$ onto this quantized basis. We derive upper bounds on the approximation error of our algorithm, and analyze the impact of target rank and quantization bit-budget. The tradeoff between compression ratio and approximation accuracy allows for flexibility in choosing these parameters based on specific application requirements. We empirically demonstrate the efficacy of our algorithm in image compression, nearest neighbor classification of image and text embeddings, and compressing the layers of LlaMa-$7$b. Our results illustrate that we can achieve compression ratios as aggressive as one bit per matrix coordinate, all while surpassing or maintaining the performance of traditional compression techniques.
Abstract（参考訳）: 行列は、構造化された方法でデータを整理し操作するための便利なフレームワークを提供するため、様々な研究分野で非常に有用である。しかし、現代の行列は数十億の要素を巻き込み、そのストレージと処理は計算資源やメモリ使用量の観点から非常に要求される。極端に大きいが、そのような行列は概して低位であることが多い。この構造を利用して任意の行列 $\mathbf{a}$ as $\mathbf{a} \approx \mathbf{l}\mathbf{r}$, ここで$\mathbf{l}$ と $\mathbf{r}$ の低階分解を求めるアルゴリズムを提案する。 \mathbf{l}$ と $\mathbf{r}$ の要素の総数は、$\mathbf{a}$ の要素よりもかなり少ない。さらに、$\mathbf{l}$ と $\mathbf{r}$ のエントリは、低いランクと低い精度の因子化を与えることで$\mathbf{a}$ を圧縮する低精度フォーマットに量子化される。我々のアルゴリズムはまず列をランダムにスケッチし、次にこの基底を構成するベクトルの量子化によって$\mathbf{A}$の範囲空間の近似基底を計算する。そして、この量子化された基底に対して$\mathbf{A}$の列の近似射影を計算する。アルゴリズムの近似誤差の上限を導出し、目標ランクと量子化ビット予算の影響を解析する。圧縮比と近似精度のトレードオフにより、特定のアプリケーション要件に基づいてこれらのパラメータを選択する柔軟性がある。画像圧縮,画像およびテキスト埋め込みの最も近い分類,llama-$7$bの圧縮におけるアルゴリズムの有効性を実証的に実証した。その結果,従来の圧縮技術の性能を上回ったり維持したりしながら,行列座標当たり1ビット程度の攻撃的な圧縮比が得られることが分かった。

関連論文リスト

Query Efficient Structured Matrix Learning [32.0553563150929]
我々は任意の有限サイズの行列族、$mathcalF$から、ほぼ最適の$A$の近似を求める。驚くべきことに、マットベックモデルでは、複雑さの2次的な改善を$tildeO(sqrtlog|mathcalF|)$にすることができる。例えば、次元$q$の任意の楕円行列族から準最適近似が $tildeO(sqrt) で学習できることを確かめる。
論文参考訳（メタデータ） (2025-07-25T14:04:20Z)
Optimal Quantization for Matrix Multiplication [35.007966885532724]
我々は、近似誤差を明確に保証したネスト格子に基づく普遍的量子化器を構築する。我々の量子化器の実用的低複雑さバージョンは、非常に最適に近い性能を達成する。
論文参考訳（メタデータ） (2024-10-17T17:19:48Z)
Optimal Sketching for Residual Error Estimation for Matrix and Vector Norms [50.15964512954274]
線形スケッチを用いた行列とベクトルノルムの残差誤差推定問題について検討する。これは、前作とほぼ同じスケッチサイズと精度で、経験的にかなり有利であることを示す。また、スパースリカバリ問題に対して$Omega(k2/pn1-2/p)$低いバウンダリを示し、これは$mathrmpoly(log n)$ factorまで厳密である。
論文参考訳（メタデータ） (2024-08-16T02:33:07Z)
Compressing Large Language Models using Low Rank and Low Precision Decomposition [46.30918750022739]
この研究は、新しい訓練後のLLM圧縮アルゴリズムである$rm CALDERA$を導入している。重量行列 $mathbfW$ の固有の低ランク構造を利用して、低ランクで低精度な分解によってそれを近似する。その結果、LlaMa-$2$$7$B/$13B$/$70$BとLlaMa-$3$B $rm CALDERA$は、既存のトレーニング後の圧縮技術より優れていることが示された。
論文参考訳（メタデータ） (2024-05-29T08:42:30Z)
Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文参考訳（メタデータ） (2024-02-06T15:39:09Z)
Compressive Recovery of Sparse Precision Matrices [5.557600489035657]
我々は,$d$変数の統計的関係を,mathbbRn times d$の$n$サンプル$Xのデータセットからモデル化するグラフの学習問題を考察する。サイズ $m=Omegaleft((d+2k)log(d)right)$ ここで、$k$は基礎となるグラフのエッジの最大数である。本稿では, グラフィカルラッソに基づく反復アルゴリズムを用いて, 具体的デノイザとみなす実用的リカバリを実現する可能性について検討する。
論文参考訳（メタデータ） (2023-11-08T13:29:08Z)
Efficiently Learning One-Hidden-Layer ReLU Networks via Schur Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文参考訳（メタデータ） (2023-07-24T14:37:22Z)
Fast Graph Sampling for Short Video Summarization using Gershgorin Disc Alignment [52.577757919003844]
高速グラフサンプリングの最近の進歩を利用して,短い動画を複数の段落に効率よく要約する問題について検討する。実験結果から,本アルゴリズムは最先端の手法と同等の映像要約を実現し,複雑さを大幅に低減した。
論文参考訳（メタデータ） (2021-10-21T18:43:00Z)
Fast Matrix Square Roots with Applications to Gaussian Processes and Bayesian Optimization [24.085358075449406]
行列平方根とその逆は機械学習で頻繁に現れる。我々は,$mathbf K1/2 mathbf b$,$mathbf K-1/2 mathbf b$とその導関数を行列ベクトル乗算(MVM)により計算するための高効率二次時間アルゴリズムを導入する。提案手法は,Krylov部分空間法と有理近似,典型的には4ドル10分の精度で100ドル未満のMVMを推定する。
論文参考訳（メタデータ） (2020-06-19T17:56:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。