論文の概要: IM-Unpack: Training and Inference with Arbitrarily Low Precision
Integers
- arxiv url: http://arxiv.org/abs/2403.07339v1
- Date: Tue, 12 Mar 2024 05:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:41:36.669861
- Title: IM-Unpack: Training and Inference with Arbitrarily Low Precision
Integers
- Title(参考訳): IM-Unpack:任意の低精度整数を用いたトレーニングと推論
- Authors: Zhanpeng Zeng, Karthikeyan Sankaralingam, Vikas Singh
- Abstract要約: GEMM(GEneral Matrix Multiply)は、ディープラーニングにおける中心的な演算であり、計算フットプリントの最大部分に相当する。
一般的な戦略は、行列の元のエントリを近似するために低ビット幅整数を使用することである。
これにより効率が向上するが、しばしば丸め誤差を抑えるための高度な技術を必要とする。
- 参考スコア(独自算出の注目度): 27.64682274632527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GEneral Matrix Multiply (GEMM) is a central operation in deep learning and
corresponds to the largest chunk of the compute footprint. Therefore, improving
its efficiency is an active topic of ongoing research. A popular strategy is
the use of low bit-width integers to approximate the original entries in a
matrix. This allows efficiency gains, but often requires sophisticated
techniques to control the rounding error incurred. In this work, we first
verify/check that when the low bit-width restriction is removed, for a variety
of Transformer-based models, whether integers are sufficient for all GEMMs need
-- for {\em both} training and inference stages, and can achieve parity with
floating point counterparts. No sophisticated techniques are needed. We find
that while a large majority of entries in matrices (encountered in such models)
can be easily represented by {\em low} bit-width integers, the existence of a
few heavy hitter entries make it difficult to achieve efficiency gains via the
exclusive use of low bit-width GEMMs alone. To address this issue, we develop a
simple algorithm, Integer Matrix Unpacking (IM-Unpack), to {\em unpack} a
matrix with large integer entries into a larger matrix whose entries all lie
within the representable range of arbitrarily low bit-width integers. This
allows {\em equivalence} with the original GEMM, i.e., the exact result can be
obtained using purely low bit-width integer GEMMs. This comes at the cost of
additional operations -- we show that for many popular models, this overhead is
quite small.
- Abstract(参考訳): GEMM(GEneral Matrix Multiply)は、ディープラーニングにおける中心的な演算であり、計算フットプリントの最大部分に相当する。
したがって、その効率性の向上は、現在進行中の研究の活発なトピックである。
一般的な戦略は、行列の元のエントリを近似するために低ビット幅整数を使うことである。
これにより効率が向上するが、しばしば丸め誤差を制御するための高度な技術を必要とする。
本研究では,様々なトランスフォーマーモデルにおいて,低ビット幅制限が取り除かれたとき,全てのGEMMに必要な整数が十分であるか否かを,トレーニングと推論の段階で検証・検証し,浮動小数点数とのパリティを実現する。
高度な技術は必要ない。
行列(そのようなモデルで説明される)の成分の大部分は、容易に {\em Low} ビット幅整数で表すことができるが、いくつかの重いヒッタ成分の存在は、低ビット幅GEMMのみを排他的に使用することで効率向上を達成するのを困難にしている。
この問題に対処するため、我々はInteger Matrix Unpacking (IM-Unpack) という単純なアルゴリズムを開発し、大きな整数成分を持つ行列を任意の低ビット幅整数の表現可能な範囲内にある大きな行列にアンパックする。
これにより、元の GEMM との等価性、すなわち、正確な結果は純粋に低ビット幅の整数 GEMM で得られる。
これは追加の操作のコストが伴います -- 多くの人気のあるモデルでは、このオーバーヘッドが非常に小さいことが分かります。
関連論文リスト
- Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - Unlocking Tokens as Data Points for Generalization Bounds on Larger Language Models [79.70436109672599]
LLaMA2-70Bほどの大きさの大規模言語モデルの非空一般化境界を導出する。
我々の研究は、実際にデプロイされ、高品質なテキストを生成するモデルに対する最初の非空き境界を達成する。
論文 参考訳(メタデータ) (2024-07-25T16:13:58Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Algorithme EM r\'egularis\'e [0.0]
本稿では,より少ないサンプルサイズに対応するために,事前知識を効率的に活用するEMアルゴリズムの正規化バージョンを提案する。
実データを用いた実験では,クラスタリングのための提案アルゴリズムの性能が向上した。
論文 参考訳(メタデータ) (2023-07-04T23:19:25Z) - Learning Hidden Markov Models Using Conditional Samples [72.20944611510198]
本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。
本稿では,HMMの条件分布からサンプルを問合せする対話型アクセスモデルを提案する。
具体的には、正確な条件付き確率に対するクエリアクセスが可能な設定において、HMMを学習するための効率的なアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-02-28T16:53:41Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - A Structured Sparse Neural Network and Its Matrix Calculations Algorithm [0.0]
非対称な三対角行列を導入し, 対角方向のスパース成分とオフセット部分および超対角線を導入した。
行列逆が存在しない場合には、最小二乗型擬逆が提供される。
その結果,行列のサイズが大きくなると計算コストが著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-07-02T19:38:48Z) - FusedMM: A Unified SDDMM-SpMM Kernel for Graph Embedding and Graph
Neural Networks [3.577310844634503]
本研究では, サンプル密度行列乗算とスパース密度行列乗算をFusedMMと呼ばれる単一演算の下で統一する融合行列乗算カーネルを開発した。
ユーザ定義関数を使用することで、FusedMMは一般的なグラフ埋め込みやGNNアプローチで必要とされる、ほぼすべての計算パターンをキャプチャできる。
論文 参考訳(メタデータ) (2020-11-07T18:06:57Z) - BiQGEMM: Matrix Multiplication with Lookup Table For Binary-Coding-based
Quantized DNNs [7.635154697466773]
ディープニューラルネットワーク(DNN)におけるパラメータの数は、複雑なタスクをサポートし、モデルの精度を向上させるために急速に増加している。
本稿では,量子化 DNN 専用の行列乗法 BiQGEMM を提案する。
論文 参考訳(メタデータ) (2020-05-20T08:15:33Z) - Sketching Transformed Matrices with Applications to Natural Language
Processing [76.6222695417524]
本稿では, 変換行列を用いて, 与えられた小さな行列の積を計算するための空間効率のよいスケッチアルゴリズムを提案する。
提案手法は誤差が小さく,空間と時間の両方で効率がよいことを示す。
論文 参考訳(メタデータ) (2020-02-23T03:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。