論文の概要: Addition is almost all you need: Compressing neural networks with double binary factorization
- arxiv url: http://arxiv.org/abs/2505.11076v1
- Date: Fri, 16 May 2025 10:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.584218
- Title: Addition is almost all you need: Compressing neural networks with double binary factorization
- Title(参考訳): ニューラルネットワークの圧縮と二分分解
- Authors: Vladimír Boža, Vladimír Macko,
- Abstract要約: 二重二元因子化(DBF)は、密度重み行列を2つの二元行列の積に分解する新しい方法である。
DBFは2値表現の効率性を保ちつつ、最先端の手法と競合する圧縮率を達成する。
重量あたりの2ビットでは、DBFはQuIP#やQTIPのような最高の量子化手法と競合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binary quantization approaches, which replace weight matrices with binary matrices and substitute costly multiplications with cheaper additions, offer a computationally efficient approach to address the increasing computational and storage requirements of Large Language Models (LLMs). However, the severe quantization constraint ($\pm1$) can lead to significant accuracy degradation. In this paper, we propose Double Binary Factorization (DBF), a novel method that factorizes dense weight matrices into products of two binary (sign) matrices, each accompanied by scaling vectors. DBF preserves the efficiency advantages of binary representations while achieving compression rates that are competitive with or superior to state-of-the-art methods. Specifically, in a 1-bit per weight range, DBF is better than existing binarization approaches. In a 2-bit per weight range, DBF is competitive with the best quantization methods like QuIP\# and QTIP. Unlike most existing compression techniques, which offer limited compression level choices, DBF allows fine-grained control over compression ratios by adjusting the factorization's intermediate dimension. Based on this advantage, we further introduce an algorithm for estimating non-uniform layer-wise compression ratios for DBF, based on previously developed channel pruning criteria. Code available at: https://github.com/usamec/double_binary
- Abstract(参考訳): 重み行列を二項行列に置き換え、コストのかかる乗算を安い加算に置き換える二項量子化手法は、Large Language Models (LLMs) の計算量と記憶量の増大に対処する計算効率のよいアプローチを提供する。
しかし、厳密な量子化制約($\pm1$)は、かなりの精度の劣化を引き起こす。
本稿では,密度重み行列を2つの二分行列の積に分解する新しい手法であるDBF(Double Binary Factorization)を提案する。
DBFは2値表現の効率性を保ちつつ、最先端の手法と競合する圧縮率を達成する。
特に、1重量あたり1ビットでは、DBFは既存の二項化法よりも優れている。
重量あたりの2ビットでは、DBFはQuIP\#やQTIPのような最高の量子化手法と競合する。
圧縮レベルの選択肢が限られている既存の圧縮技術とは異なり、DBFは分解の中間次元を調整して圧縮率を細かく制御できる。
この利点に基づき、これまで開発されたチャンネルプルーニング基準に基づいて、DBFの非一様層圧縮比を推定するアルゴリズムをさらに導入する。
https://github.com/usamec/double_binary
関連論文リスト
- BiMaCoSR: Binary One-Step Diffusion Model Leveraging Flexible Matrix Compression for Real Super-Resolution [63.777210548110425]
本稿では,バイナライゼーションと1段階蒸留を組み合わせたBiMaCoSRを提案する。
BiMaCoSRはFPに比べて23.8倍圧縮率と27.4倍スピードアップ比を達成した。
論文 参考訳(メタデータ) (2025-02-01T06:34:55Z) - Quantization-aware Matrix Factorization for Low Bit Rate Image Compression [8.009813033356478]
画像圧縮は効率的な伝送と保存に不可欠である。
本稿では、量子化対応行列分解法(QMF)を導入し、新しい損失画像圧縮法を提案する。
我々の手法は、JPEGを低ビットレートで0.25ビット/ピクセル(bpp)以下で連続的に上回り、高いビットレートで比較する。
論文 参考訳(メタデータ) (2024-08-22T19:08:08Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Neural Network Compression using Binarization and Few Full-Precision
Weights [7.206962876422061]
自動Prune Binarization (APB) は量子化とプルーニングを組み合わせた新しい圧縮技術である。
APBは、数個の完全精度重みを使ってバイナリネットワークの表現能力を向上する。
APBは最先端の方法よりも精度とメモリのトレードオフが優れている。
論文 参考訳(メタデータ) (2023-06-15T08:52:00Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Exact Backpropagation in Binary Weighted Networks with Group Weight
Transformations [0.0]
量子化に基づくモデル圧縮は、推論のためのハイパフォーマンスで高速なアプローチとして機能する。
重みをバイナリ値に制限するモデルは、ユビキタスドット製品の効率的な実装を可能にします。
論文 参考訳(メタデータ) (2021-07-03T10:29:34Z) - BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。
複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。
実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文 参考訳(メタデータ) (2020-12-31T16:34:54Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。