論文の概要: DiBA: Diagonal and Binary Matrix Approximation for Neural Network Weight Compression
- arxiv url: http://arxiv.org/abs/2605.05994v1
- Date: Thu, 07 May 2026 10:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.704486
- Title: DiBA: Diagonal and Binary Matrix Approximation for Neural Network Weight Compression
- Title(参考訳): DiBA: ニューラルネットワークの重み圧縮のための対角行列近似
- Authors: Nobutaka Ono,
- Abstract要約: 線形層、1時間1ドルの畳み込み、アテンションプロジェクション、埋め込み層を含む現代のネットワークの多くのコンポーネントは、密度の高い行列重みを持つ。
DiBAは$AinmathbbRmtimes n$ by $widehat A=D_1B_DBD_3$を近似する。
DiBARD (DiBA with Retuning only Diagonal Factor) は、密度の高い行列層をDiBA因子で置き換え、バイナリ行列を凍結し、下流データ上の対角成分のみをリチューニングする。
- 参考スコア(独自算出の注目度): 8.81314696375596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose DiBA (Diagonal and Binary Matrix Approximation), a compact matrix factorization for neural network weight compression. Many components of modern networks, including linear layers, $1\times1$ convolutions, attention projections, and embedding layers, have dense matrix weights. DiBA approximates $A\in\mathbb{R}^{m\times n}$ by $\widehat A=D_1B_1D_2B_2D_3$, where $D_1,D_2,D_3$ are diagonal matrices and $B_1,B_2$ are $0/1$ binary matrices. The intermediate dimension $k$ controls the trade-off between theoretical storage and approximation accuracy. For matrix-vector products, DiBA decomposes dense multiplication into three element-wise scaling operations and two binary mixing operations, reducing the floating-point multiplication count from $mn$ to $m+k+n$. For optimization, we introduce DiBA-Greedy, an alternating solver that combines closed-form least-squares updates for the diagonal factors with exact one-bit improvement tests for the binary factors. We also introduce DiBARD (DiBA with Retuning only Diagonal factors), which replaces dense-matrix layers by DiBA factors, freezes the binary matrices, and retunes only the diagonal entries on downstream data. This preserves compact binary mixing without discrete search during adaptation. On 40 dense weight matrices extracted from public pretrained models, DiBA-Greedy yields consistent SNR improvements as the theoretical storage ratio increases. After DiBA replacement in two component-replacement studies, DiBARD improves DistilBERT/WikiText masked-token accuracy from 0.4447 to 0.5210 and Speech Commands test accuracy for an Audio Spectrogram Transformer from 0.7684 to 0.9781 without reoptimizing the binary factors.
- Abstract(参考訳): 本稿では、ニューラルネットワークの重み圧縮のためのコンパクト行列分解法であるDiBA(Diagonal and Binary Matrix Approximation)を提案する。
線形層、$1\times1$畳み込み、アテンションプロジェクション、埋め込み層を含む現代のネットワークの多くのコンポーネントは、密度の高い行列重みを持つ。
DiBAは$A\in\mathbb{R}^{m\times n}$ by $\widehat A=D_1B_1D_2B_2D_3$, ここで$D_1,D_2,D_3$は対角行列、$B_1,B_2$は$0/1$バイナリ行列である。
中間次元$k$は理論記憶と近似精度の間のトレードオフを制御する。
行列ベクトル積に対して、DiBAは密乗を3つの要素スケール演算と2つのバイナリミキシング演算に分解し、浮動小数点乗算数を$mn$から$m+k+n$に減らす。
最適化のために、直交型最小二乗の更新を二乗係数の正確な1ビット改善テストと組み合わせた交互化解法であるDiBA-Greedyを導入する。
また、DiBARD (DiBA with Retuning only Diagonal Factor) を導入し、密度行列層をDiBA因子で置き換え、バイナリ行列を凍結し、下流データ上の対角成分のみをリチューンする。
これにより、適応中に離散探索することなく、コンパクトなバイナリミキシングが保たれる。
一般の事前訓練モデルから抽出した40の高密度重量行列では, 理論記憶比が増加するにつれて, DiBA-Greedyは一貫したSNRの改善をもたらす。
DiBA を2つのコンポーネント置換研究で置き換えた後、DiBARD は DistilBERT/WikiText のマスク入力精度を 0.4447 から 0.5210 に改善し、音声スペクトログラム変換器の音声コマンドを 0.7684 から 0.9781 に再最適化することなくテスト精度を 0.7684 から 0.9781 に改善した。
関連論文リスト
- Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。
当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文 参考訳(メタデータ) (2025-05-23T14:37:00Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Addition is almost all you need: Compressing neural networks with double binary factorization [0.0]
二重二元因子化(DBF)は、密度重み行列を2つの二元行列の積に分解する新しい方法である。
DBFは2値表現の効率性を保ちつつ、最先端の手法と競合する圧縮率を達成する。
重量あたりの2ビットでは、DBFはQuIP#やQTIPのような最高の量子化手法と競合する。
論文 参考訳(メタデータ) (2025-05-16T10:07:36Z) - Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues [65.41946981594567]
Mamba、RWKV、GLA、mLSTM、DeltaNetは、長いシーケンスでTransformerの効率的な代替手段として登場した。
しかし、TransformerとLRNNはどちらも状態追跡に苦労しており、コード評価などのタスクではパフォーマンスを損なう可能性がある。
本研究では,Mamba と DeltaNet の固有値範囲を負の値を含むように拡張することで,状態追跡タスクの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-11-19T14:35:38Z) - Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - FRMDN: Flow-based Recurrent Mixture Density Network [3.007949058551534]
本稿では,時間ステップ毎に非線形変換対象系列上にガウス混合モデルを定義することにより,繰り返し混合密度ネットワークを一般化する。
このモデルにより,ログライクリフで測定した画像列の適合性が著しく向上することがわかった。
また,提案手法を一部の音声・画像データに適用し,そのモデルがログ類似度で他の最先端手法よりも優れたモデリング能力を有することを示した。
論文 参考訳(メタデータ) (2020-08-05T14:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。